如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

知乎热榜5个月前发布 NIUC!
466 0 0

德里克文的回答

先上我个人作为AI视频创作者的看法:目前这个时间节点,可灵AI就是AI视频领域第一的王者。

这也是圈内众多AI视频创作者的看法。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?
我用快手可图生成的图片

7月6日的发布会距离可灵第一次发布上线,仅仅过了一个月。

快手用这一个月的时间,异军突起,直接将整个AI视频大模型的水准提升了一个档次。

快手老铁行动力满分,速度快,质量高!

我认为在2024年7月6日,可灵在AI视频领域,可以当之无愧成为世界上最好的AI视频大模型。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国? https://www.zhihu.com/video/1793225219483234304

在这一个月时间内,可灵进行了多次的重要功能迭代。

在6月6日第一次发布当天即邀请创作者内测使用,支持5秒的“文生视频”。

而在6月21日,可灵增加了“图生视频”模式,可以采用垫图生视频,支持视频续写,最长可达3分钟,并且在文生视频比例方面,增加竖屏9:16和方形1:1的比例。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

7月6日,可灵更是一口气更新了“WEB端网页”、高清至1080P且码率提高的“文生视频”、实用性极强的首尾帧“图生视频”,最高长达10秒的单次视频生成,以及增加镜头模式带来更加多控制。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

这些实用性极强的功能修改,可灵仅仅用了1个月的时间。

而且最为关键的是,可灵不搞期货,所见即所得,发布会刚宣布的消息,在创作者群内直接发个公告,下一秒网站已经可以登陆使用。

实诚!

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

我今天非常荣幸,在WAIC 2024的现场观看了本场发布会,见证了这一历史时刻。

现场自发此起彼伏的掌声让发布会热闹非凡,微信群的小伙伴也都被可灵高潮迭起的更新震惊了。

不虚此行。

接下来,我将给大家介绍下本场发布会,关于AI应用相关的详细内容。

一、可灵更新

在此次论坛中,快手正式宣布其可灵AI基础模型迎来重大升级,不仅推出了更高清晰度的高画质版本,还新增了首尾帧控制和镜头控制等先进的编辑功能。

此外,创作者现在可以一次性生成长达10秒的文生视频,这一时长是目前行业内向用户开放的单次视频生成最长时间。

而在讲解可灵具体更新内容之前,先让我们看下可灵这一个月发布以来,背后的数字。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

50万+的申请用户数量,通过了30万+,总共生成了700万视频。

可灵生成视频的等待时间并不算长,而且还是全免费,可同时生成多个视频。

这些数字的背后,预示着庞大的算力和充足的资金储备,要知道视频消耗的算力和成本是很高的,而目前可灵全免费。

难怪可灵AI能成为首个在海外AI圈也引发热议的中国大模型。

1. WEB端

可灵正式开放WEB端可以用电脑进行图片、视频生成操作。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

WEB端的地址是:

可灵 AI - 新一代 AI 创意生产力平台

2. AI图片生成

而在网页版新更新的AI图片生成上,可灵AI的效果也很好,

有几个让我影响深刻的点。

首先是一次性可以生成的图片数量多,图片比例选择多样,从16:9到9:16,各种规格尺寸的图片参数都有,而且一次可以生成9张,而9张的生成时间,根据我的实际测试,还不到20秒。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

其次是可以采用全中文输入,并且能够理解中文语意,甚至可以直接生成中文文字!

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

我尝试用了几个不同风格,可以看到这是我的实测效果,9张图里面,出现正确的中文的图片数量不少了,也就是说在20秒内我们就能够拿到想要的内容。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

最后,功能性强,在图片生成界面,有参考图/垫图功能,可以采用其他图片进行风格参考,或者将之前生成的图片进行垫图。

我尝试将之前生成的女孩,提示词只增加动作描述后,发现可灵AI可以很好理解我的意图,在角色主要内容不变的情况下,调整动作及背景。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

上图我变换了背景,可以看到脸还是一致的。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

在上面这张图片上,我调整了动作,可灵AI展现了惊人的稳定性。

这个功能对于AI视频制作过程中的角色稳定性简直是巨大的福音。

那么风格迁移呢?我尝试放入一张我之前用其他AI绘画软件制作的中式水墨画,用了系统默认的提示词,将风格进行迁移。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

这个效果真的比我想象的还好。

可灵AI牛逼!

3. 高清画质

针对“文生视频”之前用户反馈的画质不够清晰的问题,可灵也做了改善。

现在文生视频已经直接将分辨率提升。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

在实际测试可以明显感觉到画质的提升效果。

有部分的视频可能由于基础语料的原因,虽然分辨率和码率提高了,但是画面还是不够精致,不过我相信随着快手语料库的增加,画质会越来越好

4. 首尾帧

本次的重磅更新,不得不提的就是首尾帧功能,有了首尾帧功能,AI视频才能从玩具变成工具,强控制能力对于AI视频创作者是刚需。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

我这里也实测了下这个首尾帧的效果,这个功能有一个非常方便的点,就是你可以从之前AI生图的历史记录中直接导入首尾帧的图片,不需要下载上传。

这种提升工作效率,从细节着手的做法真的令人很有好感。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

需要注意的是,图生视频模式只能采用“高表现”模式,一天只有3次(但是WEB端和APP端分开),这样算的话一天可以生成6次,大家需要注意珍惜次使用次数。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

最后让我们来看下效果。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国? https://www.zhihu.com/video/1793228859484811265 如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国? https://www.zhihu.com/video/1793228769596669953

5. 运镜支持

在本次发布会还有一个对于视频创作者非常友好的内容,就是运镜支持。

得益于Dit架构,可灵支持对视频生成进行精准的相机镜头控制。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

运镜控制有预制好的多选项,直接选择即可。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

我实测了下这个效果,镜头控制能力还是非常强的,能够按照镜头语言要求行动。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

最后来看看实际效果,我采用的是大幅度的镜头语言动作。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国? https://www.zhihu.com/video/1793229631668768768

6. 更新总结

最后来看看这些更新的内容总结,我就偷个懒,直接放上发布会屏幕的内容。

最有灵性的是底下一句话:“继承快手的优良传统,发布即可用!”

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

Sora,有人在Call你……

你以为这就完了吗?

还有未来可能的改进,有功能预告,包括了:

人物ID保持(按照我的理解,通俗说就是换脸,中间的人脸就是左边那个哥们的脸,不过为了避免侵犯他人隐私我就不放照片了,现场鉴定长得一模一样,换脸效果非常好)

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

语言面部匹配(按照我的理解,通俗来说就是数字人的唇形匹配,画面左边那个小娃娃照片通过文字,可以让他说话并且匹配嘴唇的动作)

最后一个是画面结构控制(按照我的理解,通俗来说就是画出草图,可以根据草图来进行画面控制,以后分镜可以直接用手绘了,对于有手绘能力的人来说是大大的福音)

以上就是本次可灵AI更新的主要内容及未来可能的功能展望。

介绍完可灵AI,我也还想再谈谈快手的其他大模型,我看好快手未来在AI大模型领域的全面发展,而绝不仅仅只限于AI视频大模型。

切容我细细道来。

二、AI为核

在发布会上,我印象最深刻的一句话是:“快手是一家真正以 Ai 为基础的产品,短视频正是基于 Ai的推荐机制。”

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

正是基于这个理念,快手构建了一个由快意语言大模型、推荐大模型和视觉生成大模型组成的强大模型矩阵。

这些模型横跨内容理解、分发和生成等多个关键领域,为快手商业生态的各个场景提供深度支持和服务。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

而正是这种从应用到大模型层,成体系的架构,让可灵实现了令人惊艳的效果。

事实上,除了AI视频大模型,今天的快手的发布会成果远超我的预期。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

快手的推荐大模型SIM是十万亿参数规模的大语言模型,发布会现场说测试平均水准已经达到gpt-4的能力。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

而其下一代架构ACT,预计每日将为快手App增加4亿分钟的用户观看时长,显著提升用户粘性和活跃度。

有了用户作为基础,才会有繁荣的生态。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

快手的战略眼光和落地的执行力让我影响深刻,在可灵模型问世之前,其实快手已经推出了大语言模型“快意”和文生图模型“可图”。

虽然这都没有引起市场太大的关注,但是他们一直在坚持,结果正是最具挑战性的视频生成模型“可灵”,获得了市场的广泛认可并且成功出圈。

可以说可灵项目是一个“高度复杂、资源密集且需要多方协作的工程”。

快手的目标是将生成模型与创作工具无缝整合,以此帮助创作者简化创作流程,提高短视频的内容质量和制作效率。

所以可灵的首发是在快影APP的一个附加功能, 同时快手还针对AI视频创作者,给出了专项的流量扶持和创作奖励,诚意满满。

对AI应用创作者的实际支持,我不夸张的说,可灵是我目前感受最好的平台。

感谢。

三、可图正式开源

除了上面这么多信息外,我还想特别提一个信息。

那就是可图大模型开源。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

我一直是开源模型的支持者和簇拥者,我非常感激有着互联网分享精神的开发者对技术扩展的贡献。

而快手在这次发布会上对于可图大模型的开源,更是让我拉满了好感。

根据介绍,该模型具备多项关键优势,包括对复杂语义的深刻理解、摄影级别的图像质量以及在多种条件下实现风格化生成的可控性。

根据智源研究院的权威评估,可图模型以75.23分的成绩在全球文生图大模型领域排名第二。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

从发布会现场公布的信息,可图模型融合了快手在大语言模型方面的丰富经验,经过数十亿中文语料的精心训练,成为最擅长处理中文内容的文生图模型。

根据我了解到的信息,可图的基底模型是基于SDXL,并结合ChatGLM 256来增强双语理解和文字的生成能力,在本地部署,需要19GB显存的显卡就可以跑。

这真是对创作者的福利。

四、AI视频大模型信息对比

最后,我个人将目前AI视频从业者常用的AI视频大模型进行了一个信息对比。

如何看待可灵大模型在WAIC 2024会议上的更新,中国目前在AI视频大模型上是不是已经超过美国?

表单内容仅为我自己一家之言,我并非专业测评机构,仅仅从个人使用角度进行评价,内容也许不客观不理性,纯纯给大家做个参考。

结语

遥想半年前,业内高质量的 Ai 视频都还是用国外的 runway,pika 做的视频内容,半年后大部分国内 Ai 视频创作者已经是都在用国产的工具。

尤其是可灵 Ai 大模型的生成效果已经达到了事实上的世界第一梯队,这半年我们一起见证了国产AI视频技术的崛起!

希望未来,我们能够见证更多的历史。


我是德里克文,一个对AI绘画,人工智能有强烈兴趣,从业多年的 室内设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

© 版权声明

相关文章

暂无评论

暂无评论...