中国的AI技术水平，是否已经到了能够帮助创作者实现内容的程度？

溪亭日暮的回答

不提具体程度，问能不能都是耍流氓。

中国的AI技术水平正以一种强大而温和的方式，帮助创作者实现内容的共创。不信你回忆一下今年年初有没有用“全民舞王”跳过“科目三”？有没有用AI大模型写过文案、总结？有没有在直播中刷到数字人主播？

但是这个程度能达到多深，取决于大模型是否能够从“AI幻觉”过渡到智能涌现。这其中相差的就是大量的数据和先进的算法。而从难度来看，和生成式AI的迭代变化一样，AI视频生成出现最晚，也相对更难。

今晚全程刷了《2024中国·AI盛典》，可以看到AI已经在帮助传统的内容创作大放异彩。比如AI能让收藏在博物馆里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字“活起来”并形成意义。依托国产EMO技术，沉睡2000多年的兵马俑与歌手董宝石“跨时空同台”，用华阴老腔展现“大秦雄风”，都在开启内容与AI的深度连接。

一、让兵马俑唱rap有多难？

AI视频生成是AI图像生成的“升维”。

无论是AI图像生成还是AI视频生成，首要步骤都是预训练文本——图像模型，通过文本生成大量的图像。视频可以被视为连续图像的“拼接”，它不仅涉及空间域中的单帧画面建模，还涵盖时间域中的跨帧运动建模。因此，对于AI视频生成最难的一点在于，在将图像“升维”为“连续画面”的过程中，既需要正确地建立时间依赖关系和镜头语言模型，也需要准确地将语言中的抽象概念转化为具体的视觉表现。

世界知识很复杂，人脸也不简单。

纵观当前的主流视频生成模型，它们普遍采用Stable Diffusion或自回归的原理来生成图像，随后在这些图像的基础上添加时间维度，并学习和绑定动作的顺序，进而生成关键帧，再通过插帧技术来补足其余画面。总体而言，仍处于探索阶段，面临着可控性、连贯性和逼真度这“三座大山”的挑战。

就拿人脸来说，传统的方法都要针对人脸、人头或者身体部分做显式的建模或者表征，一般是用参数化的3D模型来表示人脸，用骨骼模型来驱动脸部动作，但因为通用性低（同一套表情参数可能在不同人之间不通用)，效果差（表情不连续，画音不匹配），成本高（数据标注量大，要求高）等问题，很难做到规模化应用。

二、EMO如何学会人类的表达

不得不承认的一点是，图像生成领域取得了进步，很大程度上要归功于扩散模型的出现及其应用。而除了一般的视频合成技术外，以人为主体的视频生成，特别是类似于所以“说话的头部”（Talking Head）这样的应用，无论是从市场还是科研领域来说，都是“流量产品”。

“Talking Head”实际上是为了从用户提供的音频剪辑中生成逼真的面部表情视频。但是，说实话要实现它却不是什么容易的事儿，一个最大的问题是需要精确捕捉并呈现人类面部动作的微妙性和多样性。为了简化这一任务，传统方法通常会对最终的视频输出施加一定的限制。例如，一些方法会使用3D模型来限制面部的关键点，以确保生成的面部表情符合预设的模型参数。而另一些方法则会从基础视频中提取头部运动序列，以此来指导整体的运动生成。

虽然这些限制降低了视频生成的复杂性，但它们也往往限制了最终面部表情的丰富性和自然度。换句话说，这些传统方法可能无法完全捕捉到人类面部表情的所有细节和变化，从而导致生成的视频在表情表现上略显僵硬或不够自然。因此，如何在保持技术可行性的同时，提高生成视频的丰富性和自然度，是行业和产业双双关注的要点。

最近一个大事件是：薄列峰老师带领的EMO团队，在今年2月底的技术论文（《EMO：在弱条件下使用“音频生视频”的扩散模型生成富有表现力的肖像视频》（Emote Portrait Alive -Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions））公开后立马火遍海内外，成为SORA之后最热门的AI模型之一。EMO项目此前在Github收获Stars数迅速超6600。

EMO的工作流程主要包含两部分：首先，它利用一个ReferenceNet参考网络，从给定的参考图像和动作帧中提取出关键特征；接着，它利用一个预训练的音频编码器来处理声音信息，并将其嵌入到生成过程中。在此基础上，EMO还会结合多帧噪声和面部区域掩码，来逐步生成视频内容。此外，该框架还巧妙地融合了两种注意机制和一个时间模块，以确保视频中角色的身份保持一致，同时让动作表现更加自然流畅。

简单来说，这个过程就像是AI先仔细“看”一眼照片，然后“听”到声音，再随着声音的指引，一帧一帧地“画”出视频中不断变化的图像。

EMO模型之所以能够在表现力和真实性方面相对出色，关键在于在海量的人物讲话视频上进行了训练。看了一下论文和相关资料，EMO模型的训练数据集使用了超过250小时的视频和超过1.5亿张图像。基本上这个数据集包含了演讲、电影和电视剪辑。确保了能够找到音频中具体发音与人像口型的匹配关系，发现音频中的语气特征与人物表情的关联性，从而将音频暗含的情绪色彩反映到了人物微表情上。

也正是因为对海量数据的学习得到的高通用性，也保证了一定的易用性，只需要一张图片与一段音频，就可以生成具有高表现力的讲话视频。

三、实测：AI视频大乱斗，Emo到底会不会让创作者emo

今天和大家手把手实测（玩）一把通义上的EMO功能，看看EMO到底能不能让我emo住。

第一步：打开通义APP，点击“全民舞台”。今晚可能是因为AI盛典，有一个活动Banner，可以做同款兵马俑照片，也设置好了模板《从军行》。

我们可以选择任何有人脸的照片，无论是自己的照片还是3D角色，还是兵马俑，EMO都能帮你转化为动态视频。

然后就坐等视频出炉。

https://www.zhihu.com/video/1790388729443119104

可以看到，视频中的人物表情和动作幅度相对来说还是很自然的，基本上连头发丝都在动。这种细腻度估计整个市场的产品也很少见了。

https://xg.zhihu.com/plugin/75dae2ef2b5e2f6f1fe89210c6b14cc9?BIZ=ECOMMERCE

生成后，用户可以在生成记录里查看，还可以分享、下载、删除视频。或者换一个人脸重新生成。

整体看来，还是蛮有趣的。不仅是可以帮助创作，也相对算是一个创意辅助工具。

未来，EMO技术有望应用于数字人、数字教育、影视制作、虚拟陪伴、电商直播等场景，中国自己的AI将更快地大众化和工具化，成为不需要什么技术门槛的内容创作的傻瓜式应用。

不过，值得警惕的一个问题是，当未来的内容创作工具简单到就是一个对话界面时，我们面对空空的输入框，会不会同样大脑空空，根本不知道自己能够提出什么需求呢？

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

中国的AI技术水平，是否已经到了能够帮助创作者实现内容的程度？

一、让兵马俑唱rap有多难？

二、EMO如何学会人类的表达

三、实测：AI视频大乱斗，Emo到底会不会让创作者emo

你有哪些消费降级的省钱独门妙招可以分享？

如何看待张朝阳在「第十届盐Club新知青年大会」上说的广义相对论时空观？

相关文章

暂无评论

热门网址

随机文章