段小草的回答
昨天晚上的 2024中国 AI盛典大家看了吗?晚会上有一句话说的很好:「见证 AI 无处不在,畅谈 AI 无限可能」,这也是我对生成式 AI 的期待和感受。应该说,中国在这一新一轮的生成式 AI 浪潮中并没有掉队,而是紧紧咬住了世界前沿,带来了一流的 AI 技术。
在AI 盛典上,我们已经可以看到很多实际应用的 AIGC 案例正在帮助各行各业的创作者实现内容,从文字到音乐,从图像到视频,把以前虚无缥缈的想象转化为丰富多彩的内容,科技与人文在这里碰撞,过去和未来在此刻交融。这些内容创作的背后,就需要底层的 AI 技术来打破虚拟与现实之间的壁垒。
一张照片、一段音频,让图中人物唱歌说话
晚会上的 AI 兵马俑和 AI 苏轼,就来自于阿里旗下通义实验室的基于EMO大模型能力的【全民唱演】。
这个功能我们其实并不陌生,通义虽然还不满一周岁,这已经是第N次出圈了,早在今年春节的时候,通义就推出了「全民舞王」,利用 AnimateAnyone 技术让照片就能跳科目三,让萌宠跳洗澡舞,带来了很多非常魔性的作品;之后又再次升级为「全民唱演」,将通义实验室的 EMO 技术落地实现为全民可用的 AI 应用。
在晚会直播的同时,央视频和通义App上就已经上线了同款模板,大家都可以上传自己的照片来变身兵马俑同唱「从军行」。
下载通义App-频道-顶部活动栏-上传照片演同款:
最近几年各地都在卷文旅,我觉得其实「AI + 文旅」很有搞头。AI 赋能可以让人人都自由创作。让历史活起来,让文旅生动起来。
让照片活起来背后的技术——EMO
大家应该或多或少都了解过数字人技术,一个完整的数字人需要将很多技术整合在一起,而其中很重要的一部分就是 Talking Head。
今年 2 月底,阿里旗下通义实验室发表了 EMO(Emote Portrait Alive)论文,以弱控制设计实现音频驱动的Talking Head。
Talking Head技术是指生成和控制人脸动画来模拟真实人物的面部表情和口型动作的技术,可以作为数字人的面部控制技术应用于虚拟助手、视频生成、远程教育等领域。
Talking Head技术主要分为视觉驱动、音频驱动和3D几何驱动三种类型。视觉驱动方法通过静态图像或视频序列作为输入,利用复杂的机器学习算法生成面部动画。音频驱动方法则通过音频输入来合成对应的面部动作,特别是唇同步和情感表情。3D几何驱动方法利用三维几何理解和复杂的光照互动来生成动画。
Talking Head 的主要难点就在于面部表情变化是否自然,避免失真,同时,通过大量数据训练来增强模型的泛化能力,提升模型处理不同种族、性别、年龄甚至卡通、绘画等多种风格的人脸时的表现。
通义实验室的EMO使用了庞大的数据库作为训练集,通过对不同人脸、不同语言的表情、说话、唱歌等序列进行处理,提取出相应特征;同时通过扩散算法将语音和表情相结合。
具体来讲,EMO通过Stable Diffusion实现了文生图的转换,并引入音频编码器、面部区域掩码、多帧噪声等技术来生成连贯的视频序列。
与传统的SD模型相比,EMO增加了面部区域掩码和速度层来提高生成视频的质量。同时采用了跨注意力机制来融合语音特征和图像特征,使得生成的视频更加连贯和自然。
EMO的生成分为两个阶段:在初始的帧编码阶段,使用 ReferenceNet 提取参考图像和运动帧的特征。在扩散过程阶段,预训练的音频编码器处理音频嵌入。
研究人员还将EMO的生成效果与其他 Talking Head 模型做了比对,比如Wav2Lip的嘴部结果比较模糊,DreamTalk和 SadTalker 头部移动的幅度十分局限。
不止娱乐,通义App上的更多效率功能
经过将近一年的发展,通义App已经成为涵盖智能助手(文本生成、AI搜索)、语音转录、阅读总结、文字作图、角色扮演、AI 写真、全民舞台等全功能的 AI 应用。
我自己最常用的就是通义听悟和AI阅读助手这两个功能,对工作效率的提升非常大。
比如上面提到的EMO技术论文,就可以直接扔给AI阅读助手来进行辅助阅读,可以提炼出论文导读,帮助我们快速掌握论文的技术原理、实验方法、创新改进等关键信息。如果对论文哪一部分不太清楚明白,还可以直接对论文提问,实现ChatPaper的效果:
再比如,使用通义听悟功能,可以实时录音或上传音视频文件。如果上传的是英文的录音,还能直接进行全文翻译,提供中文版的总结摘要和章节速览,同时定位到相应时间戳的句子进行回看回听。除了自己的录音,还能直接粘贴播客链接,对播客内容进行总结,处理信息的效率非常高:
可以看出,随着生成式 AI 的发展和进步,AI 技术已经开始逐渐落地进入应用层,给普通用户提供更多快捷而便利的AI服务。而阿里云一直在持续地投入研究,致力于用 AI 赋能千行百业,引领国内大模型产业发展。
可以说,Qwen的模型能力居于全球前列,通义 App 上各类功能齐全,可以免费使用各种 AI 功能,如果你还没有体验过生成式 AI 的效果,现在就下载通义 App 体验一下吧!