如何看待可灵大模型在WAIC 2024会议上的更新，中国目前在AI视频大模型上是不是已经超过美国？

段小草的回答

中国超过美国啥的我下不了结论，但我知道快手的老铁们搞 AI 绝对比美国那帮人厚道。

第一，这年头哪儿见过发布会开完就能直接免费用上的功能啊？OpenAI 发布了半年的 Sora 到现在连排队申请的链接都见不着呢，现货不比期货靠谱一万倍。

第二，快手这次发布可不只可灵，大语言模型、文生图模型、视频生成模型这次都放出来了。文生图模型可图还直接就开源了：

Github^[1]和 HuggingFace^[2]都已经开源了，这不比 CloseAI 更 Open：

大家都知道 Stable Diffusion 和 DALLE 不会写字特别是汉字，很容易鬼画符，而可图的汉字能力就好很多：

第三，不论是 AI 生图，还是 AI 生视频，可灵都能同时提交很多任务，然后排队等着生成。这是什么样用户至上的精神啊，只有快手的老铁愿意无私地给我们这么多算力：

更不要说，可灵目前的 AI 视频生成能力，就是一线水平。以下都是我自己生成的，可以点开动图：

可灵的文生图和图生视频还能直接联动，不需要下载图片再上传图片

可以直接在历史创作里选择自己刚才 AI 生成的素材：

比如我把 AI 生成的两个人像图片做首尾帧视频，就能得到这样的效果：

首尾帧这功能用好了，真的可以可控生成很多过渡性的画面，只需要想办法生成或者制作好开始和结尾两张图，中间的过渡和动作 AI 都能搞得定。如果我多搞一些这样的图片串起来，是不是就能做出「瞬息全宇宙」那样多元宇宙的切换效果了…

讲道理，永远不要怀疑中国从 1 到 100 的能力，只要是已经做过从 0 到 1 验证可行的事情，我们就有能力追赶。大模型并不像想象中那么艰深难懂，也没有不可逾越的护城河。

我现在觉得，现在就是做应用的大好时机，大语言模型已经卷成白菜价了，可以稳定控制的视频工作流正在探索，确实是时候结合自身想想有没有可以做的业务场景。特别是对程序员们，本身就有一定的技术能力，再加上 AI 加持，完全可以一人成军。

如果你对制作大模型应用感兴趣，不妨听一听知乎知学堂的「大模型公开课」开阔一下视野，由业内专家讲解技术原理，带你实战应用开发，直播课现在限时免费，先点下面卡片把课领了吧：

可灵与 Sora 相比，唯一的缺点可能就是出身了。快手的老铁跟 OpenAI 的首席科学家相比，听上去似乎没那么高大上？我们可不管你那么多，谁能用上，谁更好用，用户会用脚投票。

我觉得当初夸 Sora 的那些话，现在完全可以原样搬到可灵上来。

Sora 对前期的分镜创作、远景里不重要的群演、一些视频画面的插帧特效都会有影响…将来有可能不再需要那么多的实拍和人力，甚至是一些风格化的改变，类似于调色一样，直接给视频套一个LoRA —— 现在已经有人基于可灵开始做短剧工作流了。

也许此时此刻，正有一位没有可灵账号的美国用户发出了灵魂疑问：「这国怎，定体问，我陷思，气抖冷！」

以上。

参考：

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...