70万人争先体验!视频生成新王者!「可灵AI」再次升级-人工智能

首页 2024-07-11 02:39:55

难不成,ai 短剧时代真的来了吗?

最近,生成了各种视频 AI 放出的 Demo 令人眼花缭乱。从玩梗图、拼长度到讲究真实的物理逻辑,层出不穷的人工智能创意难以区分,每个人都要跟着 Sora 试比高。这时,突然有人偷偷先行一步,搞出来了「电影级」的表现:

真实风格的光影效果:

? ? ? ? ? ? ? ? ? ? ? ? ? ? 来源:https://x.com/i/status/1806383419661730197

想象力丰富,元素齐全,可以做到:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?没想到在 AI 在我眼里,蝙蝠侠其实能让小丑绷不住。来源:https://x.com/blizaine/status/1806383419661730197

有些人已经试图利用这种能力来完成复杂的任务。有视频生成 AI,音乐生成的 AI,再加上一些 PS 和 AE,我们可以做出完整的产品 MV 了。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?来源:https://twitter.com/Arata_Fukoe/status/1809840865063629292

你问网友如何看待这种生成效果,网友要问一句「你怎么看好莱坞?」

这种 AI 视频生成的效果丝滑细腻,吸引了一大波赞誉。仔细看,社交网络上还有很多短视频。

据网友总结,新款 AI 它的优点主要体现在生成大规模运动时不容易混淆大脑。另一个例子是让它的图形视频,一个跑步的半人马:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?来源:https://x.com/StevieMac03/status/1809694320649465930

这些视频背后的生成式 AI,是快手旗下的大模型「可灵 AI」(Kling),几个星期前,它开始在全球互联网上爆炸,当时它被称为「一号难求」。

是的,这不是先发布的。 Demo 搞 PPT 发布,而是直接开放的产品级应用。现在可灵 AI 网页版已经上线,主要是简单易用。

最新数据,可灵 AI 申请用户数量已接近 70 万,成为全网最热门的视频生成大模型。

一月份升级了好几次,可灵 AI 狂飙式进化

今年是生成式 AI 元年,早在 2 月份,OpenAI 的 Sora 将竞争拉到视频制作的高度。但是国内科技公司是第一个落地的。

自 6 月 6 自日本正式亮相以来,只有一个月,快手可灵 AI 第一个在海外 AI 引起热议的国产大模型经历了三次迭代更新。

从最初的文生视频,到两周后支持图生视频、视频续写、多尺寸选择,可灵 AI 性能越来越好,越来越全面。视频生成的各种需求似乎在不知不觉中得到了解决。

就在上周末的世界人工智能会议上 WAIC 2024 上, 可灵 AI 迎来了第三次大升级,发布了一系列新功能,大大提高了视频生成的质感、美感和可玩性,带来了创作体验的又一次飞跃。

快手高级副总裁、快手主站业务及社区科学线负责人盖坤介绍了这个可灵 AI 升级的三大亮点功能包括高画质版、首尾帧控制和相机镜头控制

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?盖坤

首先,可灵 AI 基本模型再次升级,推出了更清晰的高画质版。升级后,与之前的模型相比,生成视频的画质有了质的飞跃。

与此同时,由于训练时空分辨率较高,可灵 AI 细节、构图、运镜美观、光影等方面都有了很大的提高。

从以下图像质量的对比中,我们一眼就能看出可灵 AI 之前模型和最新模型的区别。

其次,可灵 AI 在图生视频领域增加了实用性和高呼声「首尾帧控制」该功能使图形视频与首尾帧相呼应成为现实。

通过定制开始帧和结束帧图像,用户可以准确控制不同视频片段之间镜头的光滑过渡,实现一个镜头的最终效果。从实际生成结果来看,不仅动作自然流畅,而且保证了图像质量。该功能的引入使用户有了更直观、更方便的编辑体验,以满足个性化图形视频的需求。

例如,将以下两张图片生成一段视频:

效果如下:

最后,可灵 AI 增加了运动镜控制和自动大师运动镜功能。在视频世界中,更多镜头的组合可以捕捉更多的图片,增强整体表现力。

可灵 AI 预设了六套经典的镜头控制模式,包括 Roll 旋转运镜、Tilt 垂直摇镜、Pan 水平摇镜、Vertical 垂直运镜、Horizontal 水平运镜和 Zoom 推进 / 拉远,为不同的场景提供了丰富的选择。用户还可以调整运动镜的正负参数,以控制运动的强度或温和度以及反向运动。同时,大师级运镜有助于制作电影感十足的抢眼大片。

可以看出,随着这些新功能的加入,可灵 AI 肉眼可见地改进了视频清晰度、审美表现和内容自定义控制。

不仅如此,正式会见用户可灵 AI 网页版集成了文生图、文生视频和近期支持的视频编辑能力,成为一站式视觉内容创作平台,可用于发布。

其中新增的「首尾帧控制」和「运镜控制」该功能目前在网页上提供,想要体验的小伙伴可以快速申请!

可灵 AI 网页地址:klingai.kuaishou.com

用「诚意满满」来形容可灵 AI 这次升级并不过分,背后当然离不开快手在视频制作能力和技术上的不断创新突破。

「电影级」AI 生成,背后全是技术

与非常成熟的图像生成相比,视频生成任务更为复杂,在实际应用中面临着许多挑战,如真实性、动作连贯性、画面流畅性、细节精度、场景、人物与光影一致性、物理精度和时间限制等。

这些挑战将直接决定模型的实用性和易用性。显然,再次升级的可灵 AI 这些方面都发生了变化。综上所述,可灵 AI 有七个能力亮点

快手视觉生成与互动中心负责人万鹏飞对这些能力进行了逐一的分析,构建了可灵 AI 在视频质量、图形视频、运动生成、生成时间、物理规律、指令响应、视频可控性等方面的核心竞争力,创造了当今全能的精神 AI。与此同时,万鹏飞也展望了未来的发展。他说,视频生成效果提高得非常快,正逐渐接近图形渲染和相机拍摄,这将给泛视频行业带来新的机遇。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?万鹏飞

事实上,我们见过可灵 AI 能力,上面展示的高质量版本,首尾帧控制和相机镜头控制的新功能是可灵 AI 在电影级高清图片生成,领先图生视频效果,优秀视频生成可控三大能力的进一步演变。

其中电影级高清画面生成能量力量可以高保真、生动地呈现壮丽的自然风光、人或动物的动作和表情等宏大或微妙的场景,充满大片感。

图生视频能力领先静态图像可以移动并转换为生动 5 秒短视频。同时,与不同的文本输入相匹配,使图形视频更具创意和创意「随心所欲」。

例如,将狗游泳的图像转换为视频:

效果如下:

优秀的视频生成可控性让更精细的视频创作掌控在用户手中。除了相机镜头的控制,可灵 AI 未来,语音和面部的匹配将在未来进行,角色将在未来进行 ID 通过简单的笔画提示,保持和控制图片和布局的演变,实现可控调整。模型训练已经完成,这些功能很快就会上线。

同时,可灵 AI 其他四种能力,如运动生成、生成时间、物理规律、指令响应等,也进一步提升。

其一可灵 AI 大规模合理的运动生成能力。通过建模复杂的时间和空间运动,可以得到精神。 AI 根据运动规律,可以产生大规模的运动。

由于更充分的模型训练,可灵 AI 整体运动效果更加灵活,支持动作范围更大,合理性没有减弱。以下小猫的转身和行走姿势非常自然和合理,符合物理事实。

其二是分钟级长视频生成能力。目前,分钟时间已成为评估视频生成模型的重要指标,需要更有效的多镜头处理、更长的故事和更连贯的运动扩展能力。

目前,可灵 AI 能产生几分钟的 1080p、30fps 视频。同时,遵循用户指令的视频续写功能也被打开。单次续写延迟了视频运动 4 到 5 秒,还支持连续多次续写,最长可生成 3 分钟的视频,并且在续写时可以指定故事的后续发展方向,拉满易用性。

升级后,可灵 AI 在算法和工程层面进行了联合深度优化单次生成的视频长度从 5 秒提升到了 10 秒,在对用户开放的产品中,最长的时间可以呈现出更完整的故事情节,为用户提供更广阔的创作空间。

其三可灵 AI 能够复杂的物理世界特征模拟。自 Sora 从那时起,每个视频生成模型都非常重视生成符合物理规律的视频,这就决定了模型能力的上限。

可灵 AI 它可以在发布之初准确地建模和模拟现实世界的属性,使生成的视频接近现实,比如给小猫洗澡。

现在,在更充分模型训练的加持下,可灵 AI 建模和模拟交互式物理规律的能力提高了一个更高的水平。

其四可灵 AI 的概念组合和指令响应能力很强。在技术实现方面,通过对文本到视频跨模态语义的深刻理解,可灵 AI 它可以很容易地将用户丰富的想象力转化为特定的视频图片,并释放他们的想象力,如咖啡杯火山。

升级后的可灵 AI 文本数据和编码方案接受效果更好,自然提高了用户提示词的响应能力,视觉渲染效果更好。

所有这些能力都来自可灵 AI 视频生成技术路线(采用视频生成技术路线) DiT 架构)、模型设计(如隐空间编解码、时序信息建模、文本扩展及编码)、数据保证(如多维标签系统、视频描述模型)、计算效率(如分布式训练集群、分阶段训练策略)、技术积累和独特创新,如视频时序延伸、多模态输入可控等。

可以说,今天的可灵 AI 先进可靠的技术水平,难怪技术一落地就受到人们的追捧。

生成式 AI 时代,快速准备。strong>

在过去的一年里,整个大型模型领域可以说是非常复杂的。去年,我们谈到了基础模型的研发,今年我们都在讨论应用程序。最近几天 WAIC 会议开幕时,我们目睹了另一波「模型派」和「应用派」它们之间的争论。

快手在这波浪潮中是怎么做到的?

首先,它玩的是系统。从底层 IDC 从计算中心到网络架构,AI 快手实现了全套自主研发,从平台到中层基础核心大模型,再到应用层的各种应用探索。谈到这个系统,快手副总裁大模型团队负责人张迪从长远来看,坚定投入自主研发将带来「技术雪球」效果和巨大的成本优势。快手的一个很大的优势就是上层有很多。 AI 应用场景,这将给大型模型带来很多着陆机会。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 张迪

整体框架如下:

其次,快手坚持基础模型技术研究与商业应用并举的战略。基本模型决定了 AI 在能力的上限,研究投资的定量变化会导致定性变化;另一方面,商业应用可以滚动技术雪球,分阶段投入应用新技术,不断收获反馈,逐步形成良性循环。

从去年开始,快手就提出了这个问题「快意」大模型(KwaiYi),很快就从早期开始了 13B 参数量已经发展到 175B,并推出了多模式版本。经过多个版本的迭代,快意大模型已经在快手内部创建了材料AI 今年开始在互动、内容制作等场景中发挥作用 6 月,以快乐为基础 AIGC 单日消耗营销材料超过单日消耗。 2000 万。

有了基本模型,快手在更多的场景中逐渐发展出了自己的差异化能力。

具体来说,在文生图上,快手「可图」它已成为该行业的顶级模型之一,具有很强的语义理解和指令跟踪能力。由于文本表达的创新和图像数据对齐的大量工作,图片可以画出相机级的图片纹理。经过强化学习训练,美学也符合人类的一般标准。

在视频的制作上,「可灵 AI」它在全球视频生成领域引发了新一轮的竞争。它可以进行文生视频和图形视频,并具有丰富的图像编辑能力,在视频生成的可控性、纹理、美感和运动合理性方面保持行业优秀。快手工程师继续优化工程算法,并试图减少视频生成 AI 的门槛。

说到门槛,新技术的优化是当前的生成 AI 面临的重要挑战之一。快手作为国家级短视频应用的优势在于拥有大量的短视频应用。 AI 应用场景,为落地实践带来场景和机遇。

在技术落地上,快手实现了一系列里程碑:

  • 快手在 APP 评论区测试的对话模型应用「AI 小快」,你可以理解视频中的内容并与你互动。到目前为止,它已经积累了超过 1000 一万粉丝。

  • 在电子商务直播间,使用文生图片 AI「可图」老铁们还可以用自己的生活照快速试衣,甚至可以看到动态展示。

  • 视频生成模型「可灵 AI」自发布以来,它得到了用户的广泛认可,并已累计生成 700 一站式内容创作平台开放了一万个视频。

  • 从内容的制作、理解到推荐,从个人到电子商务,快手的生成 AI 能力实现了主营业务的全覆盖,不断推动快手生态的持续发展。

最后,还有新的尝试。在 WAIC 上面,快手预告第一部 AIGC 本月将正式发布短剧《山海奇镜劈波斩浪》。

该剧由可灵 AI 为山海经中的古代神话世界提供深入的技术支持。从预告片来看,山脉到海洋、森林到天空都呈现出令人震惊的视觉效果。在过去,这种效果可能需要一个专业的特效团队,现在,视觉生成 AI 能带来震撼的视觉体验。

是的,半年前我们还在想象未来,现在 AI 真的开始拍电影了。

在当前的大模型浪潮中,最能证明技术能力的是大规模着陆。

而且快手的全方位实践让我们再次确认:AI 不知不觉中,生产力改变了我们的生活。

以上是70万人争先体验!视频制作新王者!「可灵AI」详情请关注其他相关文章!


p