AI主战场,万卡是标配:国产GPU万卡万P集群来了!-人工智能

首页 2024-07-05 17:24:23

scaling law 持续有效,使计算能力跟不上大模型的膨胀速度。「规模越大,计算能力越高,效果越好」成为行业圭皋。主流大模型从100亿跨越到 1.8 万亿参数只用了一年,meta、google、这些巨头也来自微软 2022 一年就在建造 15000 超大集群卡以上。「万卡已经成为 ai 标准配置主战场。」

然而,在中国,全国本地化 GPU 万卡集群,是屈指可数的。同时拥有超大规模、超通用性的万卡集群,更是行业空白。

当国产 GPU 万卡万 P 当集群首次亮相时,自然引起了业界的广泛关注。

7 月 3 日,摩尔线程在上海重磅宣布 AI 夸娥旗舰产品(KUAE)智能集群解决方案实现了重大升级,从目前的千卡级别大大扩展到万卡规模。夸娥,摩尔线程(KUAE)万卡智算集群,全功能 GPU 作为底座,旨在打造国内领先的,能承载万卡规模,拥有万卡 P 国内通用加速计算平台具有水平浮点运算能力,专为万亿参数级复杂大模型培训而设计。这一里程碑式的进展建立了国内 GPU 新的技术基准将有助于实现国内智能计算集群计算能力的新飞跃,为中国人工智能领域的技术和应用创新、科研和产业升级提供坚实可靠的关键基础设施。

此外,中国移动通信集团青海有限公司、中国联通青海有限公司、北京德道信科集团、中国能源建设有限公司总承包公司、桂林华盛大数据技术有限公司(排名不分先后)分别就三个万卡集群项目进行了战略签约,多方共同努力打造有用的国产项目 GPU 集群。

摩尔线程创始人兼 CEO 张建中说:“目前,我们正处于生成式人工智能的黄金时代,技术交织催动智能的出现,GPU 成为加速新技术浪潮的创新引擎。摩尔线程致力于这一历史性的创造过程,致力于为世界提供加速计算的基础设施和一站式解决方案,为整合人工智能和数字双胞胎的数字智能世界创造先进的加速计算平台。夸娥万卡智算集群作为摩尔线程全栈作为摩尔线程 AI 一个重要的战略拼图,可以为各行各业的数字智能转型提供澎湃的计算能力,这不仅有效地突出了摩尔线程在技术创新和工程实践方面的实力,也成为一种推动力 AI 工业发展的新起点。”

AI 万卡通计算能力是主战场的标准

自大型模型问世以来,需要时间来验证其未来的趋势和发展趋势,但从目前的角度来看,几种演变趋势值得关注,使其对计算能力的核心需求更加清晰。

首先,Scaling Law 它将继续奏效。Scaling Law 自 2020 自年度提出以来,大模型发展背后的揭示已经揭示 “暴力美学”,即通过计算能力、算法和数据的深度集成和经验积累,实现模型性能的飞跃,已成为业界公认的未来大型模型的发展趋势。Scaling Law 要继续奏效,需要足够大的单点和通用的计算能力来快速跟上技术进化。

其次,Transformer 结构无法实现统一,与其它结构将继续演变和共存,形成多元化的技术生态。生成式 AI 进化不仅取决于规模的简单膨胀,还取决于技术架构的创新。Transformer 尽管架构是当前的主流,但新兴架构,如 Mamba、RWKV 和 RetNet 不断刷新计算效率,加快创新速度。随着技术的迭代和进化,Transformer 体系结构无法实现统一。从密集型到稀疏型,再到多模式模型的整合,技术进步表明了对更高性能计算资源的渴望。

与此同时,AI、3D 和 HPC 跨技术与跨领域融合不断加速,促进空间智能、物理 AI 和 AI 4Science、世界模型等领域的边界扩张使大模型的培训和应用环境更加复杂和多样化,市场可以支持 AI 3D、AI 物理仿真、AI 通用加速计算平台对科学计算等多元化计算融合发展的需求日益迫切。

在多元化趋势下,AI 在模型训练的主战场上,万卡已经是标准了。随着计算量的不断增加,超级工厂迫切需要大型模型培训,即一个 “大而通用” 为了缩短训练时间,实现模型能力的快速迭代,加速计算平台。目前,国际科技巨头正在积极部署千卡甚至超万卡的计算集群,以确保大型产品的竞争力。随着模型参数从1000亿到1000亿,模型能力更加泛化,大型模型对底层计算能力的需求进一步升级,1000卡甚至10000卡集群已成为本轮大型模型竞赛的入场券。

然而,万卡集群的建设并不是一万张 GPU 卡的简单堆叠是一个高度复杂的超级系统工程。它涉及到许多技术问题,如大规模的网络互联网、高效的集群计算、长期稳定性和高可用性。这是一件困难和正确的事情。摩尔线程希望建立一个通用的加速计算平台,并优先解决大型模型培训的问题。

夸娥:国产万卡万 P 万亿大模型训练平台

夸娥(KUAE)是摩尔线程智算中心的全栈解决方案 GPU 以夸娥计算集群为核心的基础设施、夸娥集群管理平台为基础,软硬一体化、完整的系统级计算解决方案(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在通过一体化交付解决大规模问题 GPU 计算能力的建设和运营管理。

基于对 AI 对计算能力需求的深刻洞察和前瞻性布局,摩尔线程夸娥智算集群可以实现从千卡到万卡集群的无缝扩展,旨在满足大模型时代的计算能力 “规模够大 计算通用 生态兼容” 的核心需求,超大规模的整合 GPU 万卡集群、终极计算效率优化和高度稳定的运行环境,以万卡智能计算集群的新超级项目,重新定义国内集群计算能力的新标准。

夸娥万卡智算解决方案具有多个核心特点:

  • 超大算力,万卡万 P:在集群计算性能方面,新一代夸娥智能集群实现单集群规模超万卡,实现浮点计算能力 10Exa-Flops,大大提高单集群计算性能,为万亿参数级大模型训练提供坚实的计算基础。同时,在 GPU 在显存和传输带宽方面,夸娥万卡集群已经实现 PB 超大显存总容量,每秒 PB 超高速卡间互联网总带宽和每秒 PB 超高速节点互联总带宽系统协同优化计算能力、显存和带宽,全面提高集群计算性能。

  • 超高稳定性,月级长稳训练:稳定性是衡量超万卡集群性能的关键。在集群稳定性方面,摩尔线程夸娥万卡集群平均无故障运行时间超过 15 天,最长可实现大模型稳定训练 30 超过一天,每周平均训练的最高效率目标 99% 远远超过行业平均水平。由于摩尔线程自主开发的一系列可预测、可诊断的多层次可靠机制,包括:软硬件故障自动定位和诊断预测实现分钟级故障定位,Checkpoint 多级存储机制实现了内存秒级存储和训练任务的分钟恢复,以及高容错、高效的万卡集群管理平台,实现了秒级纳管分配和运行调度。

  • 极致优化,超高 MFU:MFU 它是评价大模型训练效率的一般指标,能直接反映端到端集群训练效率。夸娥万卡集群在系统软件、框架、算法等方面进行了一系列优化,有效计算效率(MFU)目标最高达 能达到国际水平的60%。在系统软件层面,基于终极计算和通信效率优化等技术手段,大大提高了集群的执行效率和性能。在框架和算法层面,夸安万卡集群支持多种自适应混合并行策略和高效显存优化,可根据应用负载选择并自动配置最佳平行策略,大大提高了培训效率和显存利用率。同时,夸娥万卡集群通过超长序列大模型 CP 并行、RingAttention 优化技术,有效减少计算时间和显存占用,大大提高集群训练效率。

  • 全方位通用,生态友好:夸娥万卡集群是一个通用的加速计算平台,其计算能力设计为通用场景,可以加速 LLM、MoE、多模态、Mamba 大模型等于不同的架构和模式。同时,基于高效易用的基础 MUSA 编程语言,完整兼容 CUDA 能力和自动迁移工具 Musify,加速新模型 “Day0” 层次迁移,实现生态适应 “Instant On",帮助客户业务快速上线。?

万众一芯,共建大模型应用生态

万卡集群的建设需要产业界的共同努力。为了实现大模型创新应用的快速实施,国内计算能力 “为用而建”。在新闻发布会上,摩尔线程与中国移动通信集团青海有限公司、中国联通青海有限公司、北京德信集团、中国能源建设有限公司总承包公司、桂林华盛大数据技术有限公司分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略合同。

在摩尔线程先进的夸娥全栈智算解决方案的帮助下,各方将共同打造强大的国内智算平台,加快产业数字化转型和高质量发展。夸娥万卡智算集群项目标志着国内 AI 计算能力基础设施的另一个重大进展将为各地数字经济的发展注入新的活力。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 摩尔线程与中国移动通信集团青海有限公司战略合同

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 与中国联通青海公司、北京德道信科集团签订摩尔线程战略合同

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 摩尔线程与中国能源建设有限公司总承包公司、桂林华盛大数据技术有限公司战略合同

新闻发布会结束后,没有问芯穹,清程极智,360、JD.COM云、智平方等五位合作伙伴代表纷纷登台,分享了摩尔线程夸娥智算集群如何帮助其在大模型训练、大模型推理、具体智能等不同场景和该领域的创新展示了夸娥智算集群在实际应用中的巨大潜力和广泛适用性。

摩尔线程愿与广大行业合作伙伴并肩发挥全栈的作用 AI 加快推动万卡智能计算集群为强大基础、多领域合作伙伴共同建设、广泛赋能数字经济的国内智能计算生态,共同开启属于大模型和生成人工智能的新时代,加快美好世界。在 WAIC 在此期间,摩尔线程将在上海世博会展览馆(H2 馆 D616)开展 “全栈 AI 加速美好世界” 主题结果显示,包括加速卡、服务器、超集成机和 AIGC 摩尔线程全栈应用于摩尔线程 AI 产品全部亮相,与众多行业合作伙伴携手展示基于夸娥智算集群的丰富行业大模型和应用方案。

以上是AI主战场,万卡是标配:国产GPU万卡万P集群来了!详情请关注其他相关文章!


p

最新文章

  • 定制远程桌面,高效沟通,无缝协作首选

  • AI主战场,万卡是标配:国产GPU万卡万P集群来了!-人工智能

  • 傲梅备份,技术精英首选,高效稳定无忧!

  • 可降低 30% 电池生产成本,LG 在新能源计划中 2028 年前,干涂技术商业化——IT行业

  • 高效掌握:开启Win10服务器管理器仪表板链接

  • 服务器访问无忧:精准域名IP一键直达!

  • 掌握服务器维护精髓,确保业务高效运转

  • 相关文章

  • 可降低 30% 电池生产成本,LG 在新能源计划中 2028 年前,干涂技术商业化——IT行业

  • 凯美瑞只卖12万,网友提车不忘比亚迪等国内推广-IT行业

  • 陶哲轩支持!人工智能数学奥林匹克竞赛进步奖公布,奖金100多万美元-人工智能

  • 杉数科技发布了智能建模和计算新产品,开启了人工智能应用的新篇章——人工智能

  • 据悉,小红书高层对人效比不满意将开启新一轮裁员工作,业绩表现 3.5 以下成重灾区-IT行业

  • 动画电影《神偷爸爸》 4.发布终极预告片,7 月 12 日本大陆上映-IT产业-IT产业

  • 比亚迪腾势Z9 GT内饰惊艳亮相:前后双冰箱、豪华水晶手柄、舒适零重力座椅-IT行业

  • 电脑启动后,如果英语不能进入系统怎么办?常见问题

  • 忘记如何解锁计算机启动密码-常见问题

  • 在哪里设置计算机启动启动项-常见问题

  • 海康威视是做什么的-常见问题

  • 海康威视摄像头如何连接手机-常见问题