蚂蚁百灵大模型的最新进展:已经具备了原生的多模态能力-人工智能

首页 2024-07-05 21:29:26

7月5日,蚂蚁集团在2024年世界人工智能大会“可信大模型助力产业创新发展”论坛上公布了自主研发的百灵大模型最新研发进展:百灵大模型可以“看”“听”、能“说”能“画”的原始多模态能力,能直接理解和训练音频、视频、图片、文本等多模态数据。本地多模态被认为是通往agi的唯一途径。在中国,只有少数大型模型制造商实现了这一能力。记者从会议现场的演示中看到,多模态技术可以让大模式更像人类一样感知和互动,支持智能体验升级。百灵的多模态能力已经应用于“支付宝智能助手”,未来将支持支付宝上更多的智能体升级。

1. (蚂蚁集团副总裁徐鹏介绍了百灵大模型的原始多模态能力)
  1. 百灵大模型的多模态能力在中文图文理解MMBench-CN评价集中达到GPT-4o水平,在信通研究院多模态安全能力评价中达到优秀水平(最高水平),具有支持大规模应用和AIGC的能力、一系列下游任务,如图形对话、视频理解、数字人等。
  2. 多模态大模型技术可以使人工智能更好地理解人类世界的复杂信息,使人工智能更符合人类的互动习惯,在智能客户服务、自动驾驶、医疗诊断等领域显示出巨大的应用潜力。
  3. 蚂蚁集团拥有丰富的应用场景和百灵大模型的多模态能力,也已应用于生活服务、搜索推荐、互动娱乐等场景。
  4. 在生活服务方面,蚂蚁集团采用多模式模型实现ACT技术,使智能主体具有一定的规划和执行能力,如根据用户语音指定直接在星巴克小程序下订购一杯咖啡。目前,该功能已在支付宝智能助理推出。
  5. 在医疗领域,多模态能力可以识别和解释用户实现复杂任务的操作,识别和解释100多份复杂的医学检测报告,检测头发健康和脱发,并为治疗提供帮助。

    (观众在蚂蚁展厅体验使用支付宝智能助理点咖啡)

蚂蚁集团副总裁徐鹏在发布现场展示了更多新升级的多模态技术可以实现的应用场景:

  1. 人工智能助理可以通过视频对话的自然形式,为用户识别服装,并提供约会搭配建议;
  2. 根据用户的不同意图,从一堆食材中搭配出不同的菜谱组合;
  3. 根据用户描述的身体症状,从一批药物中选择合适的药物,并阅读服用指导,供用户参考。

蚂蚁集团以百灵大模型多模态能力为基础,探索了大规模应用落地产业的实践。

论坛上同时发布的“支付宝多模态医疗大模型”就是这一探索的实践。据了解,支付宝多模态医疗模式增加了100亿中英文图文、1000亿医疗文本语料、1000万高质量医疗知识图谱,包括报告、图像、药品等多模态信息。它具有专业的医学知识。在中国医疗LLM评估列表的promptCBLUE中,它获得了A列表第一和B列表第二。

基于百灵大模型多模态能力,蚂蚁集团与武汉大学联合开发的遥感模型SkySense也在论坛上公布了开源计划。SkySense是目前参数最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。

“从单一的文本语义理解到多模态能力是人工智能技术的关键迭代,多模态技术产生的“听、说、写”应用场景将使人工智能的性能更加真实,更接近人类,从而更好地为人类服务。蚂蚁将继续投资于本地多触摸技术的研发。”徐鹏说。

以上是蚂蚁百灵大模型的最新进展:具有原生多模态能力的详细内容,请关注其他相关文章!


p