如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

知乎热榜5个月前发布 NIUC!
978 0 0

段小草的回答

中国超过美国啥的我下不了结论,但我知道快手的老铁们搞 AI 绝对比美国那帮人厚道

第一,这年头哪儿见过发布会开完就能直接免费用上的功能啊?OpenAI 发布了半年的 Sora 到现在连排队申请的链接都见不着呢,现货不比期货靠谱一万倍。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

第二,快手这次发布可不只可灵,大语言模型、文生图模型、视频生成模型这次都放出来了。文生图模型可图还直接就开源了

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

Github[1]和 HuggingFace[2]都已经开源了,这不比 CloseAI 更 Open:

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

大家都知道 Stable Diffusion 和 DALLE 不会写字特别是汉字,很容易鬼画符,而可图的汉字能力就好很多:

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?
Prompt:简约风格的插图,主题是AI技术;一个机器人举着一个牌子,上面写着汉字:“找工作”

第三,不论是 AI 生图,还是 AI 生视频,可灵都能同时提交很多任务,然后排队等着生成。这是什么样用户至上的精神啊,只有快手的老铁愿意无私地给我们这么多算力:

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

更不要说,可灵目前的 AI 视频生成能力,就是一线水平。以下都是我自己生成的,可以点开动图:

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?
Prompt:特写视频,两艘海盗船在一杯咖啡里航行并激烈战斗的场景
如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?
Prompt:一只手将青岛啤酒倒入玻璃杯的特写视频,背景是大排档

可灵的文生图和图生视频还能直接联动,不需要下载图片再上传图片

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

可以直接在历史创作里选择自己刚才 AI 生成的素材:

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

比如我把 AI 生成的两个人像图片做首尾帧视频,就能得到这样的效果:

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

首尾帧这功能用好了,真的可以可控生成很多过渡性的画面,只需要想办法生成或者制作好开始和结尾两张图,中间的过渡和动作 AI 都能搞得定。如果我多搞一些这样的图片串起来,是不是就能做出「瞬息全宇宙」那样多元宇宙的切换效果了…

讲道理,永远不要怀疑中国从 1 到 100 的能力,只要是已经做过从 0 到 1 验证可行的事情,我们就有能力追赶。大模型并不像想象中那么艰深难懂,也没有不可逾越的护城河。

我现在觉得,现在就是做应用的大好时机,大语言模型已经卷成白菜价了,可以稳定控制的视频工作流正在探索,确实是时候结合自身想想有没有可以做的业务场景。特别是对程序员们,本身就有一定的技术能力,再加上 AI 加持,完全可以一人成军。

如果你对制作大模型应用感兴趣,不妨听一听知乎知学堂的「大模型公开课」开阔一下视野,由业内专家讲解技术原理,带你实战应用开发,直播课现在限时免费,先点下面卡片把课领了吧:

可灵与 Sora 相比,唯一的缺点可能就是出身了。快手的老铁跟 OpenAI 的首席科学家相比,听上去似乎没那么高大上?我们可不管你那么多,谁能用上,谁更好用,用户会用脚投票。

我觉得当初夸 Sora 的那些话,现在完全可以原样搬到可灵上来。

  • 画面元素稳定、光影保持合理、符合物理逻辑 —— 可灵做到了。
  • 一次性生成 60s —— 可灵虽然不能直接生成 60s,但免费开放使用可以理解是算力限制,这次单次生成提高到 10s,多次可以延长到 3 分钟。
  • 不只要做一个短视频生成器,而是要做一个物理世界的模拟器 —— 可灵虽然没把愿景吹得那么高大上,但也提出要模拟物理世界特性。
如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?
  • Sora 对前期的分镜创作、远景里不重要的群演、一些视频画面的插帧特效都会有影响…将来有可能不再需要那么多的实拍和人力,甚至是一些风格化的改变,类似于调色一样,直接给视频套一个LoRA —— 现在已经有人基于可灵开始做短剧工作流了。

也许此时此刻,正有一位没有可灵账号的美国用户发出了灵魂疑问:「这国怎,定体问,我陷思,气抖冷!」

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

以上。

参考:

如何看待国产sora可灵图生视频和视频续写功能上线,最长可生成3分钟视频?国产大模型到达什么水平了?如何看待国产sora可灵一月之内连续三次升级,推出高清版和首尾帧等功能?视频大模型会出现跃进式迭代吗?OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

© 版权声明

相关文章

暂无评论

暂无评论...