揭秘:阶跃星星万亿Moee 多模态大模型矩阵亮相-人工智能

首页 2024-07-05 17:30:16

在 2024 在年度世界人工智能会议的现场,许多人在展位前排队,只是为了让 ai 在天庭给自己一个大模型「安排」一个差事。

流程:
  1. 提供个人照片
  2. 生成仙界形象照(参照《大闹天宫》画风)
  3. 互动情节选择和对话环节
  4. 基于选择和回答评估 MBTI 人格类型
  5. 根据人格类型 "安排" 天庭差事

体验方式:

  • 现场排队
  • 在线体验(扫描下面的二维码)

    大型创业公司阶跃星辰宣布大招

与上影合作 AI 互动体验《AI 大闹天宫只是阶跃星展现大模型魅力的开胃菜。在 WAIC 在此期间,他们隆重推出了以下大招:

  1. 万亿参数 MoE 大模型Step-2 正式版
  2. 多模态大模型参数1000亿参数Step-1.5V
  3. 大模型是由图像生成的Step-1X

Step-2 万亿参数大模型

在 3 月亮和阶跃星辰首次亮相后,Step-2 已进化到全面接近 GPT-4 在数学逻辑、编程、中文知识、英语知识和指令遵循方面表现良好。

Step-1.5V 多模态大模型

基于 Step-2 阶跃星辰开发了多模态大模型 Step-1.5V,它不仅具有很强的感知和视频理解能力,而且可以根据图像内容进行高级推理(如回答数学问题、编写代码、创作诗歌)。

Step-1X 图像生成大模型

《AI 大闹天宫图像生成的原因 Step-1X 模型完成后,该模型对中国元素进行了深度优化,具有出色的语义对齐和指令遵循能力。

建立了一个覆盖万亿参数的阶跃星辰 MoE 完整的大模型矩阵,大模型和多模态大模型,成为大模型矩阵大型创业公司第一梯队。得益于他们的对 Scaling Law 技术和资源实力的坚持与匹配。

从头训练的

Step-2 万亿参数大模型

在数学、编程等领域,万亿参数将显著提高模型的推理能力。Step-2 与千亿级模型相比,数学逻辑和编程问题更为复杂,也得到了基准评价的量化证实。

此外,其中英文能力和指令跟随能力也得到了显著提高。
Step-2 它之所以表现如此出色,一方面是因为它的参数巨大,另一方面也是因为它的训练方法。
我们知道,训练 MoE 模型主要有两种方式。一种是 upcycle,也就是说,通过重新利用训练过程中的中间结果或训练好的模型,模型性能可以以更高效、更经济的方式进一步提高。这种训练方法计算能力要求低,训练效率高,但训练模型的上限往往较低。例如,训练 MoE 在模型中,如果通过复制和微调相同的基本模型获得多个专家模型,则这些专家模型之间可能存在高度相似性,这将受到限制 MoE 提高模型性能的空间。
考虑到这些限制,阶跃星选择了另一种方式 —— 完全自主研发,从零开始训练。这样,虽然训练难度大,计算能力消耗大,但可以获得更高的模型上限。
具体来说,他们首先是 MoE 架构设计进行了一些创新,包括一些专家共享参数、异构化专家设计等。前者可以确保一些通用能力在多个专家之间共享,但每个专家仍然保持其独特性。后者通过设计不同类型的专家模型,使每个专家在特定任务中具有独特的优势,从而提高模型的多样性和整体性能。
基于这些创新,Step-2 不仅总参数达到万亿,而且每次训练或推理激活的参数也超过了市场上大多数密集型模型。
此外,从零开始训练这样一个万亿参数模型对系统团队来说也是一个很大的考验。幸运的是,阶跃星系统团队在系统建设和管理方面有着丰富的实践经验,在培训过程中成功突破 6D 并行、终极显存管理、完全自动化操作和维护等关键技术已成功完成 Step-2 训练。站着 Step-2 肩膀上的?Step-1.5V 多模态大模型
三个月前,阶跃星发布了 Step-1V 多模态大模型。最近,随着 Step-2 这个多模态大模型的正式版本也升级到了 1.5 版本。
Step-1.5V 它主要关注多模态理解能力。与以前的版本相比,它的感知能力有了很大的提高。它可以理解复杂的图表和流程图,准确地感知物理空间中复杂的几何位置,处理高分辨率和极限长宽比的图像。

此外,它还能理解视频中的物体、人物、环境、整体氛围和人物情绪。

前面提到的,在 Step-1.5V 在诞生的过程中,Step-2 功不可没。这意味着,在 Step-1.5V 进行 RLHF训练过程中(基于人类反馈的强化学习),Step-2 它被用作监督模型,相当于 Step-1.5V 有了一个当教师是一个万亿参数模型时。在老师的指导下,Step-1.5V 推理能力大大提高,可以根据图像内容进行各种高级推理任务,如解决数学问题、编写代码、创作诗歌等。 OpenAI GPT-4o 最近展示的能力之一,让外界对其应用前景充满期待。

多模态的生成能力主要体现在 Step-1X 这个新模型。与一些类似的模型相比,它具有更好的语义对齐和指令跟踪能力,并对中国元素进行了深度优化,更适合中国人的审美风格。

基于这个模型的《大闹天宫》AI 在互动体验的背后,融合了图像理解、风格迁移、图像生成、情节创作等多种能力,丰富了星星行业领先的多模态水平。例如,在生成初始角色时,系统首先判断用户上传的照片是否符合要求「捏脸」要求,然后用非常“大闹天宫”的语言风格灵活反馈。这反映了模型的图像理解能力和大语言模型的能力。在大模型技术的加持下,这款游戏让玩家获得了传统的在线技术 H5 游戏完全不同的互动体验。因为所有的互动问题、用户形象和分析结果都是在模型实时学习特征后产生的,真正实现了成千上万人和无限情节的可能性。

这些优异的表现离不开阶跃星辰全链路自主研发。 DiT 模型架构(OpenAI 的 Sora 也是 DiT 架构)。为了让更多的人使用这个模型,阶跃星给了他们 Step-1X 设计了 600M、2B、8B 为了满足不同计算场景的需要,三种不同的参数。

在 3 在月亮的亮相中,创始人姜大新明确指出,他认为大模型的演变将经历三个阶段:?

  1. 在第一阶段,语言、视觉、声音等模式是独立发展的,每个模式的模型都专注于学习和表达其特定模式的特征。
  2. 在第二阶段,不同的模式开始融合。然而,这种整合并不完整,理解和生成任务仍然是分开的,这导致模型理解能力强,但生成能力弱,或者相反。
  3. 在第三阶段,生成和理解统一在一个模型中,然后与机器人完全结合,形成特定的智能。接下来,主动探索物理世界,然后逐渐演变成世界模型,然后实现 AGI。

这也是姜大昕等人从创业之初就坚持的路线。在这条路上,「万亿参数」和「多模融合」缺一不可,Step-2 和 Step-1.5V、Step-1X 这些都是他们在这条路上达到的节点。

而且,这些节点是一环一环的。以 OpenAI 例如,他们在年初发布的视频生成模型 Sora 使用了 OpenAI 内部工具(很可能是 GPT-标注4V);和 GPT-4V 又是以 GPT-4 以相关技术为基础进行训练。就目前而言,单模态模型的强大能力将为多模态奠定基础;对多模态的理解将为生成奠定基础。依靠这样的模型矩阵,OpenAI 实现了左脚踩右脚。这条路线正在中国得到证实。

我们期待着这家公司给国内大模型领域带来更多惊喜。

以上是揭秘:阶跃星星万亿MoEOE 多模态大模型矩阵亮相的详细内容,请多关注其他相关文章!


p

最新文章

  • 揭秘:阶跃星星万亿Moee 多模态大模型矩阵亮相-人工智能

  • 浪潮DP2000G6:高效备份,一键获取数据安全!

  • 中国电信:适度推进智能计算能力基础设施建设,推进数据中心 AIDC 升级-IT行业

  • 自建服务器:掌控无限可能,开启全新世界

  • 美国联邦贸易委员会禁止“竞业协议”,面临法律挑战,生效前景不明——IT行业

  • 网络远程端口:安全之锁,通信之桥!

  • 阿维塔 07 更多内饰图片公布:带鱼屏设计,下半年即将上市-IT行业

  • 相关文章

  • 中国电信:适度推进智能计算能力基础设施建设,推进数据中心 AIDC 升级-IT行业

  • 美国联邦贸易委员会禁止“竞业协议”,面临法律挑战,生效前景不明——IT行业

  • 阿维塔 07 更多内饰图片公布:带鱼屏设计,下半年即将上市-IT行业

  • AI主战场,万卡是标配:国产GPU万卡万P集群来了!-人工智能

  • 可降低 30% 电池生产成本,LG 在新能源计划中 2028 年前,干涂技术商业化——IT行业

  • 凯美瑞只卖12万,网友提车不忘比亚迪等国内推广-IT行业

  • 陶哲轩支持!人工智能数学奥林匹克竞赛进步奖公布,奖金100多万美元-人工智能

  • 杉数科技发布了智能建模和计算新产品,开启了人工智能应用的新篇章——人工智能

  • 据悉,小红书高层对人效比不满意将开启新一轮裁员工作,业绩表现 3.5 以下成重灾区-IT行业

  • 动画电影《神偷爸爸》 4.发布终极预告片,7 月 12 日本大陆上映-IT产业-IT产业

  • 比亚迪腾势Z9 GT内饰惊艳亮相:前后双冰箱、豪华水晶手柄、舒适零重力座椅-IT行业

  • 电脑启动后,如果英语不能进入系统怎么办?常见问题