当人工智能技术发展到极致，人类的工作会变得很轻松、很简单吗？

华为云开发者联盟的回答

在这个时代，人们可以利用云计算、大数据分析等技术来处理和呈现多模态信息。AI系统可以通过语音和图像识别技术对多媒体文件进行分析，从而实现智能的分类、检索和推荐。此外，随着5G和物联网技术的不断发展，多模态信息的处理和应用将会越来越普及。

AIGC时代的到来，必然会带来巨大的机遇和挑战。

AIGC带来的机遇

01 AIGC时代：万物皆可AI生成

AIGC是一种可以广泛应用于文本、图像、音频和视频生成的人工智能技术。在文本生成方面，它可以运用多种算法进行创作，例如Jasper、copy.Ai、ChatGPT、Bard和GTP4等。在图像生成领域，它可以使用技术如EditGAN、Deepfake、DALL-E和Stable Diffusion等，创造出各种令人惊叹的图片。对于音频生成，AIGC也拥有许多强大的工具，如DeepMusic、WaveNet、Deep Voice和MusicAutoBot等，可以生成高质量的音乐和声音效果。最后，对于视频生成，AIGC同样可以提供很多资源，比如Deepfake、VideoGPT、GliaCloud和ImageVideo等，能够制作出专业级别的视觉效果和动画。总之，AIGC在多个领域都有着广泛的应用前景，并且将会继续不断地发展和完善。

02 多模态大模型的分类与发展脉络

在单模态模型阶段（2012年前），深度学习技术没有普及，研究人员主要关注单一类型的数据处理，例如图像分类模型AlexNet等。

紧接着进入单模态模型融合阶段（2012-2018年），随着深度学习技术的不断发展和应用场景的多样化，研究人员开始尝试将多个单模态模型进行融合，实现不同数据类型之间的交叉学习和融合，例如HT100M、LXMERT、VisualBERT、videoBERT等模型。

目前已经处于多模态统一大模型阶段（2018年至今），研究人员开始提出采用单个模型处理多个数据类型的方法，这类模型通常包含多种输入和输出方式，需要大量的计算资源和数据支持，已经取得良好的效果。例如UNITER模型，它是一个基于Transformer结构的多模态统一大模型，能够同时处理文本、图片和视频等数据类型。它在内部使用了跨模态交叉注意力机制来实现不同数据类型之间的交互，从而使得整个模型能够更好地理解多种数据的语义信息，并取得了领先的性能。

03 文图生成AIGC-变得精致，可控

近年来，随着人工智能技术的不断发展，文图生成技术也得到了显著的进步。今天的文图生成模型不仅能够生成逼真高清的图像，还能够实现更精致的效果，并具备可控性。在实现更精致的效果上，研究人员针对传统GAN模型存在的缺陷，提出了许多改进方法，如Pix2PixHD、SPADE等。这些模型能够增强模型输出的细节表现力，生成更加真实、精细的图像。在提高模型的可控性上，研究人员引入了条件图像生成的思想。通过给定不同的条件信息，包括语义标签、风格向量等，可以使模型生成更多样化、个性化的图像。例如，BigGAN、StyleGAN2等模型就能够根据不同的条件生成各种风格迥异的图像。除此之外，研究人员还提出了interpolated GAN和controllable GAN等模型，使得用户可以通过插值等方式来精细控制生成图像的各个细节。总之，文图生成技术在逼真高清的图像生成上取得了巨大的成功，在精细度和可控性方面也有了很大提高，这些技术的不断进步将为我们带来更加优秀、多样化的文图生成应用。

然而，文图生成AIGC的出现使得画风变得更加逼真高清，更有风格和意境。文图生成是利用人工智能技术根据输入的文本生成图像。在文图生成的研究中，逼真高清、融合多种风格和意境的图像生成是重要的研究方向。其中，高清作画模型如Google Imagen，能够实现高分辨率、逼真的图像生成；而意境绘画模型如StableDiffusion，则注重于将多种风格和意境进行融合，生成更加个性化、有深度的图像。这些模型的应用场景非常广泛，如艺术创作、平面设计等领域。

04 视频生成AIGC – 自然流畅、栩栩如生

视频生成AIGC（Artificial Intelligence Generated Content）技术正越来越成熟，能够使得生成的视频像真实一样自然流畅、栩栩如生。视频生成AIGC技术所用的算法和模型也得到了不断的优化和改进。新型的神经网络算法、光学与物理学建模等技术被引入到视频生成AIGC中，使得生成的视频更加逼真。视频生成AIGC的研究重点在于如何捕捉到影片的场景、运动和情绪，以此生成自然流畅的视频。为此，研究人员将深度学习算法应用于视频生成，使得机器可以从大量的视频数据中学习各种动作和情感，从而产生栩栩如生的视频。此外，生成的视频不仅要接近真实，还要做到自然流畅。研究人员还提出了许多技术手段，比如光流分析、双向循环生成模型等，能够在不同场景下实现平滑过渡，从而使得视频更加自然流畅。视频生成AIGC技术的发展使得我们可以生成更加逼真、自然流畅的视频，应用场景非常广泛，如影视制作、游戏开发等领域。未来，视频生成AIGC将会进一步推进技术的发展和创新，给我们带来更多的惊喜和新体验。

05 多模态AIGC大模型驱动的具身智能

多模态AIGC大模型驱动的具身智能是一种人工智能技术，它可以将传感器信号和文本输入结合起来，建立语言和感知的链接，从而操控机器人完成任务规划和物品操作。谷歌推出的5620亿参数PaLM-E就是其中的代表。这种技术的应用场景也很广泛，如智能家居、无人驾驶和工业自动化等领域。通过大模型驱动的具身智能，机器人可以更加智能地感知周围环境，并根据文本输入来规划相应的行动，实现人机协同。 PaLM-E模型采用了先进的多模态AIGC技术，它可以结合图像、声音、触觉等多个传感器信号来进行深度学习，并从中提取出关键特征。同时，PaLM-E还能够将文本输入转换为语义表示，与感知信息相结合进行综合判断和决策。这种技术的发展使得机器人可以更加智能地感知和理解周围环境，进而实现精准的任务执行和物品操作。 PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。

点击此处查看视频

（以上视频来自论文《Google’s PaLM-E is a generalist robot brain that takes commands》）

06 GPT-4 的发布，标志着 AIGC 迈入了多模态融合的新纪元

GPT-4的模型取得了重大突破，它拥有强大的图像识别能力，处理长达 2.5 万字的文本输入，让回答准确性大幅提升，以及能够生成歌词、富有创意的文本，可以实现风格的多样化。

GPT-4 作为一个强大的多模态模型，能够接受图像和文本输入，并输出准确的文本回答。实验证明，GPT-4 在各种专业测试和学术基准上的表现堪比人类水平。举个例子，在模拟律师考试中，GPT-4 能够取得前 10% 的成绩，而 GPT-3.5 则稍显逊色，只能排在倒数 10%。GPT-4 的新功能允许用户指定视觉或语言任务，并以纯文本设置并行处理文本和图像形式的 prompt。具体而言，当输入包含文本和图像时，GPT-4 能生成相应的文本输出，如自然语言、代码等。在许多领域，包括带有文本和照片的文档、图表或屏幕截图等，GPT-4 都展现出了与纯文本输入类似的功能。此外，它还可以利用为纯文本语言模型开发的测试时间技术进行增强，如少样本和思维链 prompt。GPT-4是世界第一款强有力的AI系统，会掀起一场新的工业革命，带来新的社会分工，创造新的应用场景，全面提升人类的智能化水平。

如今，虽然大模型已经建立了基础，但真正的挑战仍然在于如何将其应用到实际场景中。

例如，在自动驾驶领域，需要考虑不同的天气条件、不同的交通状况等复杂情况，这些都需要AI技术在实际应用中不断实现迭代和优化。此外，AI在推理、判断和创造等方面仍面临许多挑战，实现真正的智能仍然需要突破。因此，虽然大模型已经取得了重大进展，但AI的发展之路仍然任重而道远。

这就不得不提一下华为云发布盘古大模型了！

中国，东莞，2023年7月7日，华为开发者大会2023（Cloud）7月7日在中国东莞正式揭开帷幕，在下午举行的大会主题演讲中，华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中，盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向，持续打造核心竞争力，为行业客户、伙伴及开发者提供更好的服务。昇腾AI云服务单集群提供2000P Flops算力，千卡训练30天长稳率达到90%，为业界提供稳定可靠的AI算力，让大模型触手可及。

张平安表示：“盘古大模型要让每个行业、每个企业、每个人都拥有自己的专家助手，让工作更高效更轻松。我们始终坚持AI for Industries的战略，在深耕行业的道路上不断前行。我坚信大模型将重塑千行百业，而每一个开发者，都将是改变世界的英雄。”

盘古大模型3.0：重塑千行百业

华为云盘古大模型从一开始就聚焦为行业服务，本次大会发布的盘古大模型3.0也是一个面向行业的大模型系列，包括“5+N+X”三层架构：

L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型，提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型，匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集，包括NLP大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力，这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型，盘古提供一致的能力集。

L1层是N个行业大模型，华为云既可以提供使用行业公开数据训练的行业通用大模型，包括政务，金融，制造，矿山，气象等大模型；也可以基于行业客户的自有数据，在盘古大模型的L0和L1层上，为客户训练自己的专有大模型。

L2层为客户提供了更多细化场景的模型，更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景，为客户提供“开箱即用”的模型服务。

盘古大模型采用完全的分层解耦设计，可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集，也可以单独升级基础模型，也可以单独升级能力集。在L0和L1大模型的基础上，华为云还为客户提供了大模型行业开发套件，通过对客户自有数据的二次训练，客户就可以拥有自己的专属行业大模型。同时，根据客户不同的数据安全与合规诉求，盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

“盘古为行业而生，就要为行业着想，更好地服务千行百业的客户”，张平安表示。如今，盘古大模型已在金融、制造、医药研发、煤矿、铁路等诸多行业发挥着巨大价值。

在政务领域，华为云携手深圳市福田区政务服务数据管理局，上线了基于盘古政务大模型的福田政务智慧助手小福，能够精准理解民众咨询意图，改变传统的一网通办模式，把老百姓的话语转化为政府办事的语言，让城市更有爱。盘古政务大模型对超过20万条政务数据进行精调，包括12345热线、政策文件、政务百科等，掌握了丰富的法律法规、办事流程等行业知识。基于盘古政务大模型的小福，在一网通办业务中体现出行业性、专业性、领先性和惠民性。

在煤矿领域，盘古矿山大模型已经在全国8个矿井规模使用，一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景，让更多的煤矿工人能够在地面上作业，不仅能让煤矿工人的工作环境更加舒适，而且可以极大地减少安全事故。

在铁路领域，盘古铁路大模型能精准识别现网运行的67种货车、430多种故障，无故障图片筛除率高达95%，成为货运列检员身边有力的数字助手，将列检员从每日数百万张的“图海”检测中解放出来。

在气象领域，盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型，同时预测速度也有大幅提升。原来预测一个台风未来10天的路径，需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型，通过AI推理的方式，研究者只需单台服务器上单卡配置，10秒内就可以获得更精确的预测结果。

在金融领域，盘古金融大模型可以对银行的各种操作、政策、案例文档进行预训练，能根据客户的问题，为柜台工作人员自动生成流程和操作指导，将原来需要平均5次的操作降低为1次，办结时间缩短5分钟以上。盘古大模型让数十万网点柜员都拥有自己的智慧助手。

在制造领域，过去单产线制定器件分配计划，往往要花费3个小时以上才能做齐1天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后，能够对业务需求进行准确的意图理解，并调用天筹AI求解器插件，1分钟即可做出未来3天的生产计划。

在药物研发领域，原来一款新药研发平均需要10年时间、花费10亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球40年来首个新靶点、新类别的抗生素，并将先导药物研发周期缩短至1个月、研发成本降低70%。

技术扎根、极致效能，打造世界AI另一极

大模型的创新不仅仅是模型自身的创新，更依赖于AI的各项根技术创新。华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台，以及异构计算架构CANN、全场景AI框架昇思MindSpore，AI开发生产线ModelArts等，为大模型开发和运行提供分布式并行加速，算子和编译优化、集群级通信优化等关键能力。基于华为的AI根技术，大模型训练效能可以调优到业界主流GPU的1.1倍。

算力是训练大模型的基础。在本次大会上，张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外，还支持Pytorch、Tensorflow等主流AI框架。同时，这些框架中90%的算子，都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。

此外，在大模型训练过程中经常会遇到GPU故障，研发人员不得不经常重启训练，时间长，代价大。昇腾AI云服务可以提供更长稳的AI算力服务，千卡训练30天长稳率达到90%，断点恢复时长不超过10分钟。例如，美图仅用30天就将70个模型迁移到了昇腾，同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速，AI性能较原有方案提升了30%。

“为了帮助全球客户、伙伴、开发者训练和使用大模型，我们致力于为全球客户打造世界AI另一极，为所有AI开发者提供新的选择”，张平安表示。

深度融合，盘古大模型重构产品创新

除了在千行百业的落地实践，华为云盘古大模型也深度融入了华为云的产品服务，重构产品创新。

例如，在资料服务中，通过盘古大模型的文案生成和代码生成技术，能够提升资料撰写和前端代码编写效率，将新产品上市、赋能周期大为缩短。在云客服，通过嵌入行业知识库和意图挖掘能力的对话问答，实现全流程AI优先作答，提升客服工作效率30%。在BI，通过NL2SQL和AutoGraph智能路由，实现SQL到可视化图表的自动推荐，通过多轮自然语言交互，让人人都能便捷地从数据中洞察业务细节。在云搜索，通过多模态Embedding和NL2API技术，实现视频、文本、图谱等广泛场景搜索，借助强大的语义理解和泛化能力，让搜索准确率提高15%。

同时，华为云将CodeArts研发工具与盘古大模型相结合，正式发布了面向开发者的智能编程助手CodeArts Snap。该工具训练了760亿行精选代码、1300万篇技术文档，具备智能生成、智能问答、智能协同三大核心功能，可以实现一句对话让代码生成、一次点击即可自动注释和生成测试用例，一条指令即可智能部署，让每个软件开发者都有自己的编程助手。

此外，为了让企业在AI时代构筑更强的内容创新能力，华为云通过盘古基础大模型赋能MetaStudio数字内容生产线，打造了盘古数字人大模型，提供模型生成和模型驱动两大服务，并已经使用了20万小时音视频数据进行了预训练。基于这两大服务，开发者可以快速生成和驱动数字人模型，赋能在线教育、文娱直播、企业会议等行业应用，让每个企业员工实现“数字人自由”。例如，用户只需在华为云MetaStudio的服务页面上传20秒的个人视频，就可以快速生成个性化的数字人讲解视频，过去3个研发人员3天完成的工作，现在只需要3分钟就可以完成。

AIGC的不足之处

01 ChatGPT（包括GPT4）的诸多问题难以忽视

尽管ChatGPT（包括GPT4）是一个非常有用的工具，但它仍然存在许多问题。以下是一些经常出现的问题：

1) 强语言，弱知识，“一本正经地胡说八道”：在回答问题时，ChatGPT很容易“胡说八道”，因为它的回答通常是基于大量的文本数据而生成的，而不是真正的知识。比如下面的问题：

Q：红楼梦中贾宝玉为什么要葬花？

A：据小说描写，贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零…

Q：鲁迅和周树人是同一个人吗？

A：不是同一个人，鲁迅和周树人是两个不同的人。鲁迅…而周树人(1895年1月25日-1968年11月6日)也是中国著名的现代作家和翻译家，代表作品有《春蚕》、《子夜》等

2) 逻辑推理不靠谱：不论是数学逻辑还是专业逻辑，比如下面的问题：

Q：3个人3天用3桶水，9个人9天用几桶水？

A：根据题目可知，3个人在三天内用了3桶水，

可以推算出每天每人用水量为：

3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天

因此，在9个人使用9天内需要的总用水量为：

1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶

所以，9个人在九天内需要用 81 桶的水。(正确答案27桶)

3) 实时信息自更新慢，新旧知识难以区分，比如下面的问题：

Q：gpt4是什么时候发布的？

A：抱歉，目前还没有关于GPT-4的官方发布计划和消息

4) 无法真正为领域类问题提供专业、靠谱的答案，比如下面的问题：

Q:华为手机没电了，请问能否使用苹果手机的充电器充电？

A：可以的，苹果手机和华为手机使用的充电器接口都是标准的USB接口，因此苹果手机的充电器也可以用来给华为手机充电。不过，请注意使用符合标准的充电器。

02 多模态大模型的跨模态生成能力尚不完善

虽然AIGC跨模态生成技术的视觉效果令人惊叹，但在实际应用过程中存在一些信息不对称的问题。目前，多模态大模型在跨模态生成方面仍然存在一些不完善之处，需要进一步研究和优化。从文本到图像的生成方向，Stable Diffusion的研究发现提示词与输出之间存在着显著的组合泛化问题。例如，在输入“红草绿花”的情况下，输出结果可能会是相反，这表明AI模型对于语义的理解存在错误。同样，当输入“一匹马骑着宇航员的照片”时，输出结果可能会是宇航员骑着马的照片，这也暴露出模型在语义理解方面的不足之处。为了解决这些问题，需要进一步研究和优化多模态大模型，研究方向包括改进模型的组合泛化能力、提高模型对于语义的理解、以及优化跨模态生成结果的准确性等，以使得多模态大模型在实际应用中更加可靠和有效。

03 多模态大模型尚未完全理解多模态数据

GPT4大模型发布，加速了AIGC多模态的发展，当然多模态大模型的发展在近年来取得了令人瞩目的进展，但是作为一项前沿技术，仍存在着一系列问题需要解决。其中一个重要问题就是对于多模态数据的理解还不够充分。多模态数据是指来自不同感官或媒介的数据，如图像、音频、文本等。虽然多模态大模型可以同时处理多种类型的数据，但是对于跨模态数据的融合、对齐等方面，仍需要进一步探索和优化。

首先，对于多模态数据中的事实知识的理解不足。在实际应用中，很多跨模态生成任务都需要丰富的知识库和背景知识支撑。例如，文本描述和图像生成任务需要对具体事物的特征进行深入了解，而涉及到自然语言的任务，则需要对语言语义的理解更加准确。因此，建立更为完整准确的知识库是非常重要的。

其次，常识储备不足也是多模态大模型的瓶颈之一。常识是解决现实问题的基础，而在跨模态生成任务中，常识更是不可或缺。例如，在利用AIGC中AI作画的Stable Diffusion 作图的一个图像描述中，描绘出“小狗在路边玩耍”的情境更加符合日常生活的常识，而非描述为“四条腿的动物在道路上移动”，这说明常识缺失直接影响模型的表现效果。

最后，逻辑推理能力也是多模态大模型需要改进的地方。在实际场景中，有很多跨模态生成任务，需要通过逻辑推理进行相关内容的理解和生成。例如，基于文本的图像生成任务需要根据文本中的描述进行相应的推理，以便生成一张完整的图像。而当前多模态大模型的逻辑推理能力仍有待提高，未来的研究应该注重逻辑推理技术的研究和优化，以提高模型的综合表现能力。

总之，多模态大模型的未来研究应该致力于处理多模态数据的全面理解，选取合适的知识库和常识库，探索逻辑推理技术等方向，以提高多模态大模型在跨模态生成领域的表现效果。

04 多模态大模型PaLM-E离实用级还有多远？

多模态大模型PaLM-E的出现，标志着计算语言学作为人工智能领域的重要分支进入了一个新的繁荣期。PaLM-E依赖于如此庞大的参数，初步实现了对机器人的操控，但其在实用性方面还有待提高。其中，空间范围、物品种类和任务规划复杂度等方面的限制是最为突出的。目前展示出来的演示，其空间范围封闭有限，物品种类数量有限，规划任务比较简单，操作任务也相对简单。这些限制的存在，让人们对PaLM-E在真实复杂场景中的实用价值产生了质疑。

此外，PaLM-E在使用过程中还存在一些技术问题，例如需要耗费大量的时间来调试和训练，同时还需强大的计算资源才能支持其正常运行。这些问题在实际应用中都会给使用者带来极大的不便和成本压力。因此，需要从技术上不断优化和改进PaLM-E，使它能够更好地适应复杂的应用场景，并且让成本更低、易用性更高。当然，尽管PaLM-E离实用级还有一定距离，但是可以相信，随着技术的不断发展和突破，PaLM-E将结合各种场景打破技术限制，真正走进人们的生活和工作中，发挥其巨大的实用价值。

挑战及展望

随着AIGC的快速发展，一些问题也逐渐浮现。

在技术上，目前语言模型是基于统计的，这一机制导致回答偏差的存在，进而导致虚假信息传播的法律风险；数理领域中的生成内容错误较多，无法应用到银行、医院等专业性强的领域；模型仍不可解释与不可控，可能存在后门攻击、数据中毒、训练数据泄露等问题。在安全合规上，AIGC模型在训练过程中的数据使用合规问题、生成内容的知识产权问题，甚至是训练推理过程中带来的碳排放问题等，仍然存在很多挑战。

身处人工智能的下一个时代，我们不仅要拥抱变化，也要直视挑战。在技术方面，如何理解大模型的基本工作机制对模型安全与继续发展至关重要；除此之外，大模型训练与迁移流程优化是AI走向通用人工智能的关键。在技术发展的同时，AIGC的合规与治理应该引起重视。相信在不久的未来，AIGC将在更多领域大放异彩，也将开启云计算产业链新一轮的景气周期。

点击关注，第一时间了解华为云新鲜技术~