筑基 AIGC 智算 OS 助力大模型高效释放算力

时间:　2023-10-01 14:46:44　来源:　dddddddd

北京2023年9月28日 /美通社/ -- 近日，大模型智算软件栈 OGAI 发布会在北京开幕，作为大模型智算软件栈的重要基座，会上重磅发布了大模型算力服务的智能算力底座--智算 OS。智算 OS 是面向大模型算力服务的智能算力运管平台，通过池化通用、智能等算力，满足多租户弹性 AI 算力供给需求，不断驱动产业 AI 转型升级，为百行千业开启智慧算力新征程。

OGAI，即 Open GenAI Infra 元脑生智，是为大模型业务提供 AI 算力系统环境部署、算力调度以及开发管理能力的全栈全流程的智算软件栈。

基于全栈全流程、算力充分释放、实战验证提炼等设计理念，OGAI 分为 L0-L4 共5层，旨在为大模型开发与应用全力打造高效生产力。浪潮云海智算 OS 作为智算软件栈的基座，能够满足多租户以裸金属为主的弹性 AI 算力运管需求。其中，高效的裸金属服务支持分钟级部署上千规模裸金属节点，并按需进行弹性扩展，实现异构计算芯片、IB、RoCE 高速网络、高性能存储等环境一键获取，并实现计算、网络、数据隔离以保障业务安全。

智算 OS 是智算中心的基础底座

作为智慧算力时代的典型应用，AIGC（人工智能生成内容）自出现起便备受关注，也大大加速传统数据中心向“智算中心”的转型进程。智算中心不仅需要提供通用算力，还需具备GPU、DPU、FPGA 等多元异构算力，并且能够根据用户的不同需求，提供算力的发放或售卖服务。

智算 OS 聚焦智算中心场景，在融合云、服务器、存储、网络、AI 等基础设施产品的基础上，整合各类算力资源，为智算中心提供基础硬件设施以及云、数、智等软件平台的统一运营、运维门户和智能管理，帮助企业解决智慧算力时代的种种难题，满足互联网、教科研、金融等行业客户智算中心建设及运营运维需求。

通过算力的生产、聚合、调度和释放，帮助企业高效开发专属大模型，形成与企业适配的 AI 开发模式，助力生成式 AI 落地。

在大模型场景下，通过智算 OS 统一化算力平台，能够简便灵活获取 GPU 裸金属服务，分钟级即可部署上千规模裸金属服务器，按需进行弹性扩展。异构计算芯片、IB、RoCE 高速网络、并行存储等计算环境，一键获取，计算、网络、数据、隔离保障业务安全，像虚拟机一样易用，充分释放算力潜能。

智算 OS 最大化提升资源利用率

在用户场景中，常出现通用算力、AI 算力独立建设，这会导致一系列问题：

信息孤岛：不同类型资源之间相对独立，信息无法实现共享、互换；
资源独占：用户独占设备，算力无法共享，资源利用率低；
人力浪费：不同算力资源独立运维，给管理和运维带来巨大复杂性；

智算 OS 支持通用算力、智能算力等多种异构算力统一纳管，并采用弹性计算框架，实现资源弹性调度和多租户体系。根据租户使用情况，自动分配和调度资源，大幅降低资源使用的等待时间。按照用户实际情况进行逻辑体系规划，实现不同租户体系间资源隔离，保障数据安全性。通过自动化运维能力，降低对运维人员的专业性要求和运维复杂度，帮助用户将主要精力集中在 AI 开发中，真正实现降本增效。

智算 OS 最大化提升模型训练效率

针对 AI 大模型训练的计算特点，智算 OS 对集群架构、高速互联、算力调度等方面进行全面优化，在系统架构上，采用单节点集成 8 颗加速器的 AI 服务器，节点内加速器间实现超高速 P2P 通信，节点间建立极低延迟、超高带宽的 Infiniband 通信网络。

在大模型训练技术层面，成功运用了中文巨量 AI 模型“源1.0”的训练优化经验，对分布式训练策略进行了针对性优化，通过合理设计张量并行、流水并行和数据并行，精准调整模型结构和训练过程的超参数，最终实现千亿参数规模AI大模型的训练算力效率达到53.5%，刷新了业内 AI 大模型训练算力效率新高。

智算 OS 促进算力运营

为了保证模型开发资源的正常供给，企业通常会考虑算力高峰、低谷的现象，额外购置部分算力设备作为冗余，造成算力资源的闲置浪费和成本支出。

智算 OS 提供商业化的算力租赁服务，可通过互联网出售算力服务，并配合内置商业化计费系统，对资源使用情况进行精确计费，提供按需计费、包年包月等多样化计费套餐，帮助企业快速建成成熟的算力售卖体系，实现闲置算力资源的最大化价值输出。

目前智算 OS 已经广泛应用于多个省市级智算中心，全栈训练出 2 个 LLM 大模型，具备丰富建设调优经验，为千行百业提供高效的算力支撑。