徒弟的滴滴 发表于 2025-7-20 20:57:27

上海AI实验室实现千里算力互联训练千亿模型

7月20日消息,据媒体报道,上海人工智能实验室(上海AI实验室)发布DeepLink超大规模跨域混训技术方案,并已完成多个项目落地,支持千公里多智算中心跨域长稳混训千亿参数大模型。
微信pk10群
此举在全球首次实现长距离跨域异构智能算力的高效整合,不仅可化解全国算力资源分布不均、利用率不高的瓶颈,更可降低AI行业对特定芯片的依赖,一旦出现供应链波动,将为AI产业提供重要的兜底算力支持,避免被“卡脖子”。

上海AI实验室介绍,今年2月,上海AI实验室联合十余家合作伙伴在上海构建了超大规模跨域混训集群原型,完成了千亿参数大模型连续20天不间断训练。随后,该实验室融合中国联通AINET算力智联网,跨越1500公里连接上海与济南的智算中心,成功实现了千亿参数大模型的跨域混训。

“跨域混训”指的是将位于不同地域、基于不同芯片架构(异构)的多个算力集群互联,协同训练同一模型。这种“跨域+异构”模式虽能汇聚更多算力资源,但技术挑战巨大,此前国内外尚无成功用于生产级模型训练的先例。互联障碍往往导致训练效率极低甚至失败。上海AI实验室此次实现了“零的突破”。实测数据表明,其与中国联通合作的跨域混训,等效算力高达单集群单芯片算力的95%以上。

页: [1]
查看完整版本: 上海AI实验室实现千里算力互联训练千亿模型