段小草的回答
中国超过美国啥的我下不了结论,但我知道快手的老铁们搞 AI 绝对比美国那帮人厚道。
第一,这年头哪儿见过发布会开完就能直接免费用上的功能啊?OpenAI 发布了半年的 Sora 到现在连排队申请的链接都见不着呢,现货不比期货靠谱一万倍。
第二,快手这次发布可不只可灵,大语言模型、文生图模型、视频生成模型这次都放出来了。文生图模型可图还直接就开源了:
Github[1]和 HuggingFace[2]都已经开源了,这不比 CloseAI 更 Open:
大家都知道 Stable Diffusion 和 DALLE 不会写字特别是汉字,很容易鬼画符,而可图的汉字能力就好很多:
第三,不论是 AI 生图,还是 AI 生视频,可灵都能同时提交很多任务,然后排队等着生成。这是什么样用户至上的精神啊,只有快手的老铁愿意无私地给我们这么多算力:
更不要说,可灵目前的 AI 视频生成能力,就是一线水平。以下都是我自己生成的,可以点开动图:
可灵的文生图和图生视频还能直接联动,不需要下载图片再上传图片
可以直接在历史创作里选择自己刚才 AI 生成的素材:
比如我把 AI 生成的两个人像图片做首尾帧视频,就能得到这样的效果:
首尾帧这功能用好了,真的可以可控生成很多过渡性的画面,只需要想办法生成或者制作好开始和结尾两张图,中间的过渡和动作 AI 都能搞得定。如果我多搞一些这样的图片串起来,是不是就能做出「瞬息全宇宙」那样多元宇宙的切换效果了…
讲道理,永远不要怀疑中国从 1 到 100 的能力,只要是已经做过从 0 到 1 验证可行的事情,我们就有能力追赶。大模型并不像想象中那么艰深难懂,也没有不可逾越的护城河。
我现在觉得,现在就是做应用的大好时机,大语言模型已经卷成白菜价了,可以稳定控制的视频工作流正在探索,确实是时候结合自身想想有没有可以做的业务场景。特别是对程序员们,本身就有一定的技术能力,再加上 AI 加持,完全可以一人成军。
如果你对制作大模型应用感兴趣,不妨听一听知乎知学堂的「大模型公开课」开阔一下视野,由业内专家讲解技术原理,带你实战应用开发,直播课现在限时免费,先点下面卡片把课领了吧:
可灵与 Sora 相比,唯一的缺点可能就是出身了。快手的老铁跟 OpenAI 的首席科学家相比,听上去似乎没那么高大上?我们可不管你那么多,谁能用上,谁更好用,用户会用脚投票。
我觉得当初夸 Sora 的那些话,现在完全可以原样搬到可灵上来。
- 画面元素稳定、光影保持合理、符合物理逻辑 —— 可灵做到了。
- 一次性生成 60s —— 可灵虽然不能直接生成 60s,但免费开放使用可以理解是算力限制,这次单次生成提高到 10s,多次可以延长到 3 分钟。
- 不只要做一个短视频生成器,而是要做一个物理世界的模拟器 —— 可灵虽然没把愿景吹得那么高大上,但也提出要模拟物理世界特性。
- Sora 对前期的分镜创作、远景里不重要的群演、一些视频画面的插帧特效都会有影响…将来有可能不再需要那么多的实拍和人力,甚至是一些风格化的改变,类似于调色一样,直接给视频套一个LoRA —— 现在已经有人基于可灵开始做短剧工作流了。
也许此时此刻,正有一位没有可灵账号的美国用户发出了灵魂疑问:「这国怎,定体问,我陷思,气抖冷!」
以上。
参考:
如何看待国产sora可灵图生视频和视频续写功能上线,最长可生成3分钟视频?国产大模型到达什么水平了?如何看待国产sora可灵一月之内连续三次升级,推出高清版和首尾帧等功能?视频大模型会出现跃进式迭代吗?OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?