如何看待可灵大模型在WAIC 2024会议上的更新，中国目前在AI视频大模型上是不是已经超过美国？

知乎热榜5个月前发布 NIUC!

1,472 0 0

德里克文的回答

先上我个人作为AI视频创作者的看法：目前这个时间节点，可灵AI就是AI视频领域第一的王者。

这也是圈内众多AI视频创作者的看法。

如何看待可灵大模型在WAIC 2024会议上的更新，中国目前在AI视频大模型上是不是已经超过美国？ — 我用快手可图生成的图片

7月6日的发布会距离可灵第一次发布上线，仅仅过了一个月。

快手用这一个月的时间，异军突起，直接将整个AI视频大模型的水准提升了一个档次。

快手老铁行动力满分，速度快，质量高！

我认为在2024年7月6日，可灵在AI视频领域，可以当之无愧成为世界上最好的AI视频大模型。

https://www.zhihu.com/video/1793225219483234304

在这一个月时间内，可灵进行了多次的重要功能迭代。

在6月6日第一次发布当天即邀请创作者内测使用，支持5秒的“文生视频”。

而在6月21日，可灵增加了“图生视频”模式，可以采用垫图生视频，支持视频续写，最长可达3分钟，并且在文生视频比例方面，增加竖屏9:16和方形1:1的比例。

7月6日，可灵更是一口气更新了“WEB端网页”、高清至1080P且码率提高的“文生视频”、实用性极强的首尾帧“图生视频”，最高长达10秒的单次视频生成，以及增加镜头模式带来更加多控制。

这些实用性极强的功能修改，可灵仅仅用了1个月的时间。

而且最为关键的是，可灵不搞期货，所见即所得，发布会刚宣布的消息，在创作者群内直接发个公告，下一秒网站已经可以登陆使用。

实诚！

我今天非常荣幸，在WAIC 2024的现场观看了本场发布会，见证了这一历史时刻。

现场自发此起彼伏的掌声让发布会热闹非凡，微信群的小伙伴也都被可灵高潮迭起的更新震惊了。

不虚此行。

接下来，我将给大家介绍下本场发布会，关于AI应用相关的详细内容。

一、可灵更新

在此次论坛中，快手正式宣布其可灵AI基础模型迎来重大升级，不仅推出了更高清晰度的高画质版本，还新增了首尾帧控制和镜头控制等先进的编辑功能。

此外，创作者现在可以一次性生成长达10秒的文生视频，这一时长是目前行业内向用户开放的单次视频生成最长时间。

而在讲解可灵具体更新内容之前，先让我们看下可灵这一个月发布以来，背后的数字。

50万+的申请用户数量，通过了30万+，总共生成了700万视频。

可灵生成视频的等待时间并不算长，而且还是全免费，可同时生成多个视频。

这些数字的背后，预示着庞大的算力和充足的资金储备，要知道视频消耗的算力和成本是很高的，而目前可灵全免费。

难怪可灵AI能成为首个在海外AI圈也引发热议的中国大模型。

1. WEB端

可灵正式开放WEB端可以用电脑进行图片、视频生成操作。

WEB端的地址是：

可灵 AI - 新一代 AI 创意生产力平台

2. AI图片生成

而在网页版新更新的AI图片生成上，可灵AI的效果也很好，

有几个让我影响深刻的点。

首先是一次性可以生成的图片数量多，图片比例选择多样，从16：9到9:16，各种规格尺寸的图片参数都有，而且一次可以生成9张，而9张的生成时间，根据我的实际测试，还不到20秒。

其次是可以采用全中文输入，并且能够理解中文语意，甚至可以直接生成中文文字！

我尝试用了几个不同风格，可以看到这是我的实测效果，9张图里面，出现正确的中文的图片数量不少了，也就是说在20秒内我们就能够拿到想要的内容。

最后，功能性强，在图片生成界面，有参考图/垫图功能，可以采用其他图片进行风格参考，或者将之前生成的图片进行垫图。

我尝试将之前生成的女孩，提示词只增加动作描述后，发现可灵AI可以很好理解我的意图，在角色主要内容不变的情况下，调整动作及背景。

上图我变换了背景，可以看到脸还是一致的。

在上面这张图片上，我调整了动作，可灵AI展现了惊人的稳定性。

这个功能对于AI视频制作过程中的角色稳定性简直是巨大的福音。

那么风格迁移呢？我尝试放入一张我之前用其他AI绘画软件制作的中式水墨画，用了系统默认的提示词，将风格进行迁移。

这个效果真的比我想象的还好。

可灵AI牛逼！

3. 高清画质

针对“文生视频”之前用户反馈的画质不够清晰的问题，可灵也做了改善。

现在文生视频已经直接将分辨率提升。

在实际测试可以明显感觉到画质的提升效果。

有部分的视频可能由于基础语料的原因，虽然分辨率和码率提高了，但是画面还是不够精致，不过我相信随着快手语料库的增加，画质会越来越好

4. 首尾帧

本次的重磅更新，不得不提的就是首尾帧功能，有了首尾帧功能，AI视频才能从玩具变成工具，强控制能力对于AI视频创作者是刚需。

我这里也实测了下这个首尾帧的效果，这个功能有一个非常方便的点，就是你可以从之前AI生图的历史记录中直接导入首尾帧的图片，不需要下载上传。

这种提升工作效率，从细节着手的做法真的令人很有好感。

需要注意的是，图生视频模式只能采用“高表现”模式，一天只有3次（但是WEB端和APP端分开），这样算的话一天可以生成6次，大家需要注意珍惜次使用次数。

最后让我们来看下效果。

https://www.zhihu.com/video/1793228859484811265 https://www.zhihu.com/video/1793228769596669953

5. 运镜支持

在本次发布会还有一个对于视频创作者非常友好的内容，就是运镜支持。

得益于Dit架构，可灵支持对视频生成进行精准的相机镜头控制。

运镜控制有预制好的多选项，直接选择即可。

我实测了下这个效果，镜头控制能力还是非常强的，能够按照镜头语言要求行动。

最后来看看实际效果，我采用的是大幅度的镜头语言动作。

https://www.zhihu.com/video/1793229631668768768

6. 更新总结

最后来看看这些更新的内容总结，我就偷个懒，直接放上发布会屏幕的内容。

最有灵性的是底下一句话：“继承快手的优良传统，发布即可用！”

Sora，有人在Call你……

你以为这就完了吗？

还有未来可能的改进，有功能预告，包括了：

人物ID保持（按照我的理解，通俗说就是换脸，中间的人脸就是左边那个哥们的脸，不过为了避免侵犯他人隐私我就不放照片了，现场鉴定长得一模一样，换脸效果非常好）

语言面部匹配（按照我的理解，通俗来说就是数字人的唇形匹配，画面左边那个小娃娃照片通过文字，可以让他说话并且匹配嘴唇的动作）

最后一个是画面结构控制（按照我的理解，通俗来说就是画出草图，可以根据草图来进行画面控制，以后分镜可以直接用手绘了，对于有手绘能力的人来说是大大的福音）

以上就是本次可灵AI更新的主要内容及未来可能的功能展望。

介绍完可灵AI，我也还想再谈谈快手的其他大模型，我看好快手未来在AI大模型领域的全面发展，而绝不仅仅只限于AI视频大模型。

切容我细细道来。

二、AI为核

在发布会上，我印象最深刻的一句话是：“快手是一家真正以 Ai 为基础的产品，短视频正是基于 Ai的推荐机制。”

正是基于这个理念，快手构建了一个由快意语言大模型、推荐大模型和视觉生成大模型组成的强大模型矩阵。

这些模型横跨内容理解、分发和生成等多个关键领域，为快手商业生态的各个场景提供深度支持和服务。

而正是这种从应用到大模型层，成体系的架构，让可灵实现了令人惊艳的效果。

事实上，除了AI视频大模型，今天的快手的发布会成果远超我的预期。

快手的推荐大模型SIM是十万亿参数规模的大语言模型，发布会现场说测试平均水准已经达到gpt-4的能力。

而其下一代架构ACT，预计每日将为快手App增加4亿分钟的用户观看时长，显著提升用户粘性和活跃度。

有了用户作为基础，才会有繁荣的生态。

快手的战略眼光和落地的执行力让我影响深刻，在可灵模型问世之前，其实快手已经推出了大语言模型“快意”和文生图模型“可图”。

虽然这都没有引起市场太大的关注，但是他们一直在坚持，结果正是最具挑战性的视频生成模型“可灵”，获得了市场的广泛认可并且成功出圈。

可以说可灵项目是一个“高度复杂、资源密集且需要多方协作的工程”。

快手的目标是将生成模型与创作工具无缝整合，以此帮助创作者简化创作流程，提高短视频的内容质量和制作效率。

所以可灵的首发是在快影APP的一个附加功能，同时快手还针对AI视频创作者，给出了专项的流量扶持和创作奖励，诚意满满。

对AI应用创作者的实际支持，我不夸张的说，可灵是我目前感受最好的平台。

感谢。

三、可图正式开源

除了上面这么多信息外，我还想特别提一个信息。

那就是可图大模型开源。

我一直是开源模型的支持者和簇拥者，我非常感激有着互联网分享精神的开发者对技术扩展的贡献。

而快手在这次发布会上对于可图大模型的开源，更是让我拉满了好感。

根据介绍，该模型具备多项关键优势，包括对复杂语义的深刻理解、摄影级别的图像质量以及在多种条件下实现风格化生成的可控性。

根据智源研究院的权威评估，可图模型以75.23分的成绩在全球文生图大模型领域排名第二。

从发布会现场公布的信息，可图模型融合了快手在大语言模型方面的丰富经验，经过数十亿中文语料的精心训练，成为最擅长处理中文内容的文生图模型。

根据我了解到的信息，可图的基底模型是基于SDXL，并结合ChatGLM 256来增强双语理解和文字的生成能力，在本地部署，需要19GB显存的显卡就可以跑。

这真是对创作者的福利。

四、AI视频大模型信息对比

最后，我个人将目前AI视频从业者常用的AI视频大模型进行了一个信息对比。

表单内容仅为我自己一家之言，我并非专业测评机构，仅仅从个人使用角度进行评价，内容也许不客观不理性，纯纯给大家做个参考。

结语

遥想半年前，业内高质量的 Ai 视频都还是用国外的 runway，pika 做的视频内容，半年后大部分国内 Ai 视频创作者已经是都在用国产的工具。

尤其是可灵 Ai 大模型的生成效果已经达到了事实上的世界第一梯队，这半年我们一起见证了国产AI视频技术的崛起！

希望未来，我们能够见证更多的历史。

我是德里克文，一个对AI绘画，人工智能有强烈兴趣，从业多年的室内设计师！如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...