央视称赞国内人工智能复活召唤术,兵马俑与宝石叔叔对唱Rap?-人工智能

首页 2024-07-05 17:33:32

沉睡了2000多年的兵马俑醒了?

秦腔的开头把我们带到了黄土高原。如果不是亲眼所见,很多观众可能无法想象兵马俑和宝石会在他们的一生中看到。 Gem 同台演唱《从军行》。

「青海长云暗雪山,孤城遥望玉门关。」虽然古色古香的音乐变了,但声音依然动人:

这场表演背后「AI 复活召唤术」,叫做 EMO,阿里巴巴通义实验室。只有一张照片,一个音频,EMO 静止形象可以变成生动的歌唱视频,准确卡点音频中的跌宕起伏,抑扬顿挫。

在央视《2024 中国?AI 同样基于盛典 EMO 北宋文学家苏轼的技术「复活」,《水调歌头》与李玉刚同台合唱。「AI 苏轼」动作简单自然,仿佛穿越时空:

在 EMO 等 AI 受领域前沿技术的启发,2024年首届以人工智能为核心的国家科技盛宴 中国?AI 盛大仪式盛大开幕,以「媒体 科技 艺术」融合形式将是国内最前沿的融合形式 AI 技术力量传递给节目前的每一位观众:这不是 EMO 第一次「出圈」。曾经在社交媒体上爆炸过「高启强化罗翔普法」,也是出自 EMO 之手:?
登陆通义 APP 之后,借助玩家各种脑洞大开的试玩,EMO 到目前为止,热度还没有下降。还没有尝试过的小伙伴可以去下载这个应用程序,进入「频道」选择「全民舞台」,丝滑体验就可以了。

事实上,早在今年 2 月,通义实验室公开 EMO(Emote Portrait Alive) 相关论文。这篇论文在上线之初就受到了好评,甚至有人称赞:「EMO 是革命性的研究。」

  • 论文地址:https://arxiv.org/pdf/2402.17485
  • 项目主页:https://humanaigc.github.io/emote-portrait-alive/

为何它能得到如此高的评价?这还需要从当前视频生成技术的发展现状和 EMO 从底层技术创新开始。

如此出圈,EMO 凭什么?

过去几年,AI 图像生成的成功是有目共睹的。目前,AI 该领域的研究热点是克服更困难的任务:视频生成。

EMO 面对的恰好是一项非常困难的任务:基于音频驱动的角色视频生成。

与普通的文学生视频和图形视频游戏不同,基于音频驱动的角色视频生成是一个从音频直接跨越到视频模式的过程。这类视频的生成通常涉及头部运动、凝视、眨眼、嘴唇运动等元素,并保持视频内容的一致性和流畅性。

在以前的方法中,大多数模型首先针对面部、头部或身体部位 3D 建模或人脸关键点标记,作为中间表达重生最终视频。然而,在中间表达的帮助下,音频中的信息可能会被过度压缩,影响视频中情感表达的最终生成。

通义实验室应用视觉团队负责人薄列峰表示,EMO 关键创新点「弱控制设计」它不仅降低了视频生成的成本,而且大大提高了视频生成的质量。

「弱控制」体现在两个方面:一是,EMO 无需建模,直接从音频中提取信息,生成表情动态与嘴唇同步的视频,从而创建自然流畅、表情丰富的肖像视频,无需复杂的预处理。其次,EMO 不要做太多的生成表情和身体动作「控制」,自然流畅的最终结果来自于模型本身对高质量数据学习的泛化能力。

拿兵马俑和宝石 Gem 对于同框对唱《从军行》来说,歌声中要传达的情感(如激动)在脸上得到了很好的展现,不会给人违和感:

研究团队基于弱控制的概念 EMO 该模型构建了一个庞大而多样的音视频数据集,总计超过 250 录影和超过小时 1.5 亿张图像,它涵盖了各种语言,包括演讲、电影和电视片段,以及歌唱表演,包括汉语和英语。视频的丰富多样性确保了训练材料捕捉到了广泛的人类表达和声音风格。

学术界有一种观点认为,数据集的最佳无损压缩是数据集以外的数据的最佳泛化。能够实现高效压缩的算法通常能够揭示数据的深层规律,这也是智能的一个重要表现。

因此,在训练过程中设计了团队高保真数据编码算法,在压缩或处理数据的过程中,尽可能保持原始信息的丰富细节和动态范围。具体到 EMO 在训练中,只有音频信息完整,才能很好地展现人物的情绪。

视频生成赛道风起云涌
通义实验室如何跻身世界第一梯队?

今年 2 月初,Sora 发布点燃了视频生成轨道,其背后的许多技术都受到了关注,包括 DiT(Diffusion Transformer )。

我们知道扩散模型中的扩散模型 U-Net 理论上,模拟信号从噪声中逐渐恢复的过程可以接近任何复杂的数据分布,在图像质量方面优于生成对抗网络(GAN)和变分自编码器(VAE),生成具有更自然纹理和更准确细节的现实世界图像。但 DiT 论文表明,U-Net 对扩散模型的性能进行归纳偏置并非不可或缺,可以很容易地采用标准设计(如 Transformer)取代,这是论文提出的基础 Transformer 新型架构扩散模型 DiT。

最重要的是,以 DiT 为核心的 Sora 验证了视频生成模型中仍然存在 Scaling Law ,通过增加更多的参数和数据,研究人员可以扩大模型规模,取得更好的效果。

DiT 模型在生成真实视频方面的成功 AI 社区看到了这种方法的潜力,从经典视频制作领域推动了视频制作 U-Net 从架构转变为基础 Transformer 扩散主体结构的范式。基于 Transformer 时序预测和大规模高质量的视频数据是推动这一转变的关键力量。

但纵观目前的视频生成领域,还没有出现一个「大一统」架构。

EMO 并非基于类似 DiT 在结构的基础上,即没有用处 Transformer 去替代传统 U-Net,它还能很好地模拟真实的物理世界,这激发了整个研究领域。

视频生成领域未来会出现哪些技术路线?理论研究者和从业者都可以保持「相对开放的期待」。

薄列峰表示,本质上,目前的语言模型和图像 / 视频生成模型并不超过统计机器学习的框架。即使是 Scaling Law ,也有自己的限制。虽然每个模型都准确地掌握了强关系和中关系的生成,但对弱关系的研究仍然不足。如果研究人员不能继续提供足够的高质量数据,模型的能力就很难得到定性的提高。

从另一个角度来看,即使在视频生成领域,也会出现一种情况「占半壁江山」统一的结构并不意味着它有绝对的优势。就像自然语言一样,它一直生活在稳定的地方 C 位的 Transformer 也会面临被 Mamba 超越的情况。

在视频生成领域,每种技术路线都有自己的应用场景。例如,关键点驱动程序和视频驱动程序更适合表达迁移场景,音频驱动程序更适合角色说话和唱歌的场景。在条件控制方面,弱控制方法非常适合创造性任务。同时,许多专业和具体的任务可以从强大的控制方法中受益。

通义实验室是中国最早布局视频生成技术的机构之一。目前,文生视频、图形视频等方向的研发积累已经形成,特别是在角色视频生成方面物动视频生成框架 Animate Anyone、人物换装视频生成框架框架 Outfit Anyone、人物视频角色替换框架 Motionshop、人物演唱视频生成框架 Emote Portrait Alive?对矩阵的完整研究。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?请关注更多项目:https://github.com/HumanAIGC

比如在 EMO 之前,Animate Anyone 曾经在社交媒体和朋友圈占据主导地位。该模型解决了在角色运动视频生成过程中保持角色外观短期连续性和长期一致性的问题,然后推出了通知 App「全民舞王」功能掀起了全国热舞的小高潮。
从技术到现实世界

在过去的两年里,语言模型在对话、理解、总结、推理等文本方面表现出了强大的能力,图像生成模型表现出了强大的自然生成、娱乐和艺术能力。许多热门产品诞生在这两条轨道上。这些模型的成功至少告诉我们一件事:要想在这个时代获得有影响力的技术团队,需要学会「基础模型」和「超级应用」两条腿走路。

目前,视频内容呈爆炸式增长趋势,人们都在期待每个人的出现「可用」且「实用」的 AI 视频生成平台。EMO 通义可能是打破这种情况的重要技术突破 App 它为技术落地提供了广阔的平台。

视频生成技术的下一个挑战是如何克服专业内容。

科技公司希望将 AI 技术转化为真正的生产力工具,为短视频博主、影视制作人、广告和游戏创作者提供服务。这就是为什么视频生成应用程序不仅可以停留「通用内容」的水准。

目前,大多数视频生成应用程序都是基于 3 到 5 秒视频生成模型在应用和体验上有明显的限制。但 EMO 该技术对音频持续时间具有很高的包容性,生成内容的质量可以达到广播标准。例如,在中央电视台登陆「兵马俑唱演」,兵马俑在整个过程中4分钟的一些表演视频需要人工后期的针对性「微调」。

现在看来,以 EMO 以视频生成技术为代表的人物最接近「专业生成水平」着陆方向之一。与文生视频技术中的用户相比 Prompt 存在许多不确定性,EMO 技术高度符合人物视频创作对内容连贯性和一致性的核心需求,显示出极具潜力的应用空间。

EMO 之所以「出圈」,人们看到的不仅仅是R&D团队的技术实力,更重要的是视频生成技术的加速。

「人均专业创作者」时代,也许不远了。

以上是央视对国产人工智能复活召唤术的赞誉。兵马俑和宝石叔叔唱Rap?详情请关注其他相关文章!


p

最新文章

  • 央视称赞国内人工智能复活召唤术,兵马俑与宝石叔叔对唱Rap?-人工智能

  • 服务器与个人PC:性能之巅与日常利器之分

  • 宁德时代天行发布,商用车超充时代到来-IT行业

  • 安卓掌中宝:远程操控,尽在指尖!

  • 揭秘:阶跃星星万亿Moee 多模态大模型矩阵亮相-人工智能

  • 浪潮DP2000G6:高效备份,一键获取数据安全!

  • 中国电信:适度推进智能计算能力基础设施建设,推进数据中心 AIDC 升级-IT行业

  • 相关文章

  • 宁德时代天行发布,商用车超充时代到来-IT行业

  • 揭秘:阶跃星星万亿Moee 多模态大模型矩阵亮相-人工智能

  • 中国电信:适度推进智能计算能力基础设施建设,推进数据中心 AIDC 升级-IT行业

  • 美国联邦贸易委员会禁止“竞业协议”,面临法律挑战,生效前景不明——IT行业

  • 阿维塔 07 更多内饰图片公布:带鱼屏设计,下半年即将上市-IT行业

  • AI主战场,万卡是标配:国产GPU万卡万P集群来了!-人工智能

  • 可降低 30% 电池生产成本,LG 在新能源计划中 2028 年前,干涂技术商业化——IT行业

  • 凯美瑞只卖12万,网友提车不忘比亚迪等国内推广-IT行业

  • 陶哲轩支持!人工智能数学奥林匹克竞赛进步奖公布,奖金100多万美元-人工智能

  • 杉数科技发布了智能建模和计算新产品,开启了人工智能应用的新篇章——人工智能

  • 据悉,小红书高层对人效比不满意将开启新一轮裁员工作,业绩表现 3.5 以下成重灾区-IT行业

  • 动画电影《神偷爸爸》 4.发布终极预告片,7 月 12 日本大陆上映-IT产业-IT产业