养猫的哈士奇的回答
不废话,看下图,一张图就可以说明“东数西算”涵盖了哪些城市,“东数西算”可以看作是信息技术领域的基建工程,是堪比“四横四纵”、“西电东送”的伟大工程,芜湖则是“东数西算”的十大核心城市之一。,
这么说还是太笼统了,下面咱们就更深入的聊聊这个话题,历史总是又那么多的巧合,我们就从一个神奇的年份说起。
1992年,是一个神奇的年份,那一年的春天,有一位老人在中国的南海边画了一个圈,从此神州大地开始了翻天覆地的变化;也是那一年春天,大洋彼岸的克林顿和戈尔便在其竞选文件《复兴美国的设想》中,旗帜鲜明地提出——“50年代在全美建立的高速公路网,使美国在以后的20年取得了前所未有的发展。为了使美国再度繁荣,就要建设21世纪的‘道路’,它将使美国人得到就业机会,将使美国经济高速增长。”从此开启了美国IT产业的黄金时代,诞生了一个个的IT巨头。
30年的发展中美两国都因为当初的决策取得了非凡的成就,“要想富,先修路”,这是过去30年中国经济发展和美国IT产业发展的基石,30年过去了产业的发展也进入了新的阶段。
2022年,ChatGPT亮相彻底引爆了AI行业,“百模大战”一触即发,同样是这一年,国家发改委等多部委联合印发通知,同意在京津冀、长三角等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,“东数西算”工程正式拉开序幕,这在很多人看来就是“信息高速公路 2.0”,只是这次发生在中国。
芜湖数据中心集群是全国十大数据中心集群之一和国家“东数西算”重大战略工程,围绕更好服务长三角及全国数字经济发展需要而构建。
为什么是芜湖起飞!?
相信很多人会有个疑问,长三角那么多城市,为什么是芜湖?这就不得不说数据中心的选址原则,一般来说一个数据中心需要符合下面三个要求:
- 靠近算力需求中心
目前我国数据中心分布以大湾区、长三角、京津冀经济人口等较发达地域为主,在用数据中心中约 80%集中在经济发达、总部企业密布一线城市。但是随着北上广深等一线城市土地、能耗指标不断缩紧,因此一线城市周边地区逐渐成为互联网数据中心的首要选择。 - 综合能效优
数据中心的主要运营成本包括土地、水、电、运维等要素,其中高能耗导致的高电力成本是制约数据中心发展的主要因素之一。因此选址多向可再生能源丰富、气候适宜、数据中心绿色发展潜力较大、综合能效最优的节点城市聚集,电信运营商、互联网企业等也纷纷将数据备份存储、大数据处理等对网络时延要求较低的业务向综合能效优势地区转移。比如。西南地区的“云上贵州”吸引了苹果、腾讯、华为等企业,内蒙古乌兰察布“草原硅谷”,吸引了华为、阿里、快手等知名企业来此设立数据中心等。 - 靠近用户终端
服务后台加工、离线分析、冷数据存储备份等对时延不敏感的网络应用的数据中心,就可以优先向贵州、内蒙古、甘肃、宁夏节点转移,实现资源优化配置,提升资源使用效率。这就是大家熟知的、最初的“东数西算”、“东数西存”模式。
而随着超高清视频、虚拟现实/增强现实(VR/AR)、金融支付、金融证券、自动驾驶、工业制造、远程医疗等对网络时延要求较高的业务的广泛应用,国家也在战略层面进行了升级。24年初,国家发展改革委、国家数据局等部门联合印发《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》。《意见》指出,自动驾驶、证券交易等低时延业务场景可以通过“东数东算”“西数西算”的方式实现就近计算,实现区域内算力资源的集约利用,提升算力使用的效率。
芜湖,正好是能够为上海、江苏、河南、安徽、湖北、山东等省份提供10ms内超低时延的区域。
作为“东数西算”长三角枢纽两大集群之一的芜湖数据中心集群肩负起了服务长三角以及中部六省的数据集群,这里靠近算力需求最强劲的长三角地区,综合能效优秀,而且靠近工业制造、自动驾驶、AR/VR等用户终端,是一个很重要的数据中心聚集地。
目前,芜湖数据中心集群已签约上中下产业链重点项目45个,总投资近3000亿元,在建机架超10万架。而6月14日,“东数西算”芜湖集群创新大会暨华为云华东(芜湖)数据中心全球开服活动,标志着“东数西算”芜湖集群正式上线。
开服重头戏——华为云华东(芜湖)数据中心
”东数西算”芜湖集群创新大会暨华为云华东(芜湖)数据中心全球开服活动,看活动名字就可以感知到华为云华东(芜湖)数据中心在芜湖数据集群的重要性。通常来说只有技术最先进的项目才能在集群的众多项目中脱颖而出成为代表,显然华为云华东(芜湖)数据中心就是这个技术最先进的项目。下面就详细聊聊华为云华东(芜湖)数据中心的先进之处:
多元算力对等池化架构
为了面向未来的多元化算力需求,华为云全新设计了一套云基础设施架构,可以更好的满足大模型的需要,而且它将在芜湖率先应用,未来将复制到其他枢纽节点。对于云基础设施架构来说池化是核心的能力,在人工智能时代,AI和云原生的联动也成为最佳选择,一方面,为全面适配应用的原生化技术倾向,需要屏蔽底层资源细节,将算力资源池化,全面整合底层基础设施的计算、网络存储、GPU 等资源,实现 GPU 的灵活调度,让应用用户可共享数据中心内所有服务器上的 GPU 算力,提升企业应用开发敏捷性。另一方面,为解决算力自身的发展需求。由于业务应用对算力需求的波峰波谷效应明显,所以传统算力架构资源浪费、弹性不足的问题凸显,而算网原生正是最佳解决方案。结合资源池化,将算力向水、电一样按需供给,即用即取。
对此华为云在池化方面做了极大的优化,主要体现在:
- 一切可池化:指通过分布式擎天架构实现CPU、NPU、GPU、内存等多样资源统一抽象、池化,从单体算力架构演进到矩阵算力架构,算力规模提升了50倍。
- 一切皆对等: 指通过超高带宽的Scale up网络,将资源对等连接起来,既可以水平扩展、更可以垂直扩展,打破了单体算力性能和集群线性度瓶颈。
以AI训练场景为例,Scale up 网络加强了NPU之间的通讯能力,在同等算力条件下,可以提升大模型的训练效率。以华为云万亿参数大模型的训练为例,他们发现在效率上能够提升高达68%! - 一切可组合: 指通过瑶光智慧云脑提供NPU、GPU、CPU、内存等资源按需组合,向客户提供匹配业务的最佳算力资源组合,提供百亿到万亿模型训练所需的资源。
这些池化技术的改进使得华为云在资源调配,效率,算力等方面都获得了很大提升,能够满足用户高速增长的算力,特别是AI算力的需求。
绿色低碳
前面我们提到过数据中心选址的一个要求是综合能效优秀,尤其是电耗的控制,这是因为AI的训练是极其耗电的。据斯坦福人工智能研究所发布的《2023年AI指数报告》,AI大语言模型GPT-3一次训练的耗电量为1287兆瓦时,大概相当于3000辆特斯拉电动汽车共同开跑、每辆车跑20万英里所耗电量的总和。OpenAI的CEO Sam Altman曾谈到,推动AI发展需要实现能源突破,且太阳能与核聚变可供支持AI发展。
所以绿色低碳是衡量一个数据中心水平的重要指标,这不仅仅跟当地的资源有关也跟数据中心的技术有极大关系。在短期内我们无法大规模降低AI训练能耗的前提下,部署PUE值更低(就是每度电能有更多的部分用在算力上,而不是浪费在其他设备的能源消耗上,换句话说,能源利用效率更高)的数据中心,是一个重要的节能策略。
华为云芜湖数据中心引入AI技术精准控制温度,采集了数据中心、IT基础设施、云服务的全栈数据集进行训练,首创了云服务感知能效调优技术,AI智能调优精度高达 99.5%,可使 “液冷数据中心”PUE低至1.1(行业一般1.25),华东区域能效最优,打造绿色节能的数据中心。每100 万台服务器每年可以节省 10 亿度电,华东区域能效领先。
极速交付,全生命周期高可用设计,保障连续性
众所周知,现在大模型这么火,训练一次大模型的成本都是千万起。很多公有云厂商都在扩建自己的数据中心,来满足急剧增长的算力需求。这个时候,谁的数据中心交付快、算力扩容快,谁就能接住这泼天的富贵。
但数据中心的交付就像交房一样,很多时候只是一个机房,然后再施工,不仅交付慢而且质量隐患多,对此华为在全球首创了机房产品化交付模式,即把电力、AHU制冷等模块化,把电缆管道预制化,可实现极速交付,并将交付过程中的质量问题降低了90%。
而且,和很多人想象的不一样,大模型的训练过程中是非常容易出问题的,小问题如服务器间的光纤光模块不稳定,更大的问题如服务器散热不佳导致宕机下线,甚至还可能出现数据中心的风火水电出问题导致起火这样的大事故(前年香港某数据中心机房起火,就导致华南很多公司的重要业务停止服务)。所以,如何避免服务器故障并且能够快速的排查定位并恢复,对大模型这种投入高、持续训练时间长的场景是非常重要的。对此华为首次引入IoT 技术,打造了全数字化的数据中心,实现了告警秒级上报,故障分钟级定位。而针对数据中心最容易出现的供电、制冷、电池等设备,华为用AI技术主动识别其风险。以电池为例,华为云数据中心全网拥有百万级的电池,每天产生 20 亿的数据量,通过持续的AI训练,积累了400多个特征模型库,将电池风险识别率提升到了 92%,准确率也从原来的 60%持续提升至 97%,电池2年内没有出现任何事故。
基于昇腾云的领先云化算力
华为云的AI Gallery社区已经聚合数据集、模型、实践3大类等10万+AI资产,其中的昇腾AI云服务“百模千态”专区,提供基于异腾AI云服务适配的业界主流开源大模型,并且提供了丰富的云化应用开发工具链,直接一键接入,即开即用,快速创建模型应用,可以做到天级开通万亿模型所需的资源、大集群训练30天不中断。
如果想实用华为盘古大模型,那更方便,盘古大模型提供5个基础大模型(自然语言、视觉、多模态、预测、科学计算)+N个行业大模型+X个场景模型的三层解耦架构。为了加速和简化行业大模型从开发到落地,华为云还提供了盘古大模型工程套件,包括数据工程、模型开发和应用开发三大套件, 基于此,完成一个千亿行业模型端到端开发,从过去需要5个月缩短到现在1个月,整体速度提升5倍。目前华为云通过自己的盘古大模型赋能各行各业,已经原生孵化了30多个行业大模型。
华东智算高地
华中东区域10ms时延圈
华为云华东(芜湖)数据中心服务的主要是华东地区,这里有大量的终端用户,汽车、工业、生物医药、AR/VR等用户都对时延非常敏感。行业里通常会部署边缘云来满足时延的要求,芜湖数据中心具备良好的数据中心大规模集群条件,光纤网络可直达华东和中部热点城市,网络时延在10ms以内,甚至最快的速度,时延已经低至2ms,即便对时延要求很高的工业机器人等也可以部署在华为云上。
芜湖数据中心服务华东智算高华东区域20城10ms时延圈:
江苏:南京2.0ms、苏州5ms、无锡3.6ms、常州3.0ms、南通4.7ms、徐州5.8ms
安徽:合肥2.4ms、滁州2.3ms、安庆3.0ms、阜阳5.5ms
上海:5.6ms
浙江:杭州4.4ms、宁波6.9ms、温州8.4ms、绍兴5.1ms、嘉兴4.7ms
山东:济南10ms、临沂7.8ms、济宁8.8ms、菏泽9ms
河南:信阳6.8ms、郑州10ms、许昌 9.2ms、
湖北:武汉7.1ms、黄冈6.2ms、孝感7.5ms、襄阳10ms
江西:景德5.3ms、上饶6.3ms、南昌7.2ms、宜春9.8ms
这里脑洞一下:随着AIGC技术的进步,云端超强的算力+10ms超低时延,我们未来几年能看到实时AI生成视频的日子,应该也不远了(GitHub上那个热门的开源文生视频项目OpenSora,就提供了对昇腾算力的原生支持)。
全国“AI算力一张网”
如果我们综合来看,东数西算的本质是根据需求的不同进行资源的优化配置,实现全国算力一张网,实现算网一体化的发展。这种模式尤其适合AI这样的产业发展,以现在讨论较多的智能驾驶为例,2022年小鹏汽车与阿里云选择在乌兰察布建设智算中心“扶摇”,算力规模600PFLOPS,余承东前不久表示华为现在用于智驾的算力已经高达3.3E FLOPS(这些算力大部分都是在华为云上,而且是第二名和第三名的总和),训练数据量已达日行3000万公里,而且还在不断的增加。
智驾的端到端大模型的训练,与AI算力规模有直接的关系,对时延没有要求,就可以放到云贵、乌兰察布等地。但未来如果加上“5G+V2X+端侧智驾+全域交通调度”这种靠近的用户的驾驶端场景,也就是不仅让车能“自己开起来”,还能“在路上开的更快”,这就对时延要求就很高了。而显然,5G+车联网+智驾就是未来几年主要的发展方向。
善于做战略规划的华为,这块也早就是未雨绸缪。华为云的昇腾AI云服务就通过芜湖、贵安、乌兰察布三大数据中心形成了“3+3+N布局”,AI算力网覆盖全国多元算力需求:
ØN个城市节点(重庆、成都、武汉、郑州、西安、青岛……),一点接入,贴近用户,节点时延<5ms,满足内容审核、搜推广等业务需求
Ø3大流量高地(北、上、广深),极致体验,就近业务部署,就近接入智算中心时延小于10ms,满足AIGC、LLM、自动驾驶等业务训推需求
Ø3大智算中心(贵安、芜湖、乌兰察布),智算中心间时延<40ms,满足智能问答、客服等AI业务需求
算力的黑土地会孵化出什么样的硕果?
“要想富,先修路”,良好的基础设施建设打通了中国经济建设的任督二脉,从此中国的经济蓬勃发展;美国的“信息高速公路”则使得美国诞生了亚马逊、谷歌、雅虎、META等一大批先进的IT互联网公司。
而现在我们处于AI技术大爆发的时代,东数西算就是我们的“信息高速公路2.0”,华为等云计算厂商打好了基础,华为云华东(芜湖)数据中心就像一块智能时代的“黑土地”,会孵化出什么样的硕果呢?
截至2023年年底,华为云生态已汇聚全球超过600万开发者和4.5万家合作伙伴,众多伙伴与华为云一起共建了300多个联合解决方案与服务,云商店应用上架已超过1.2万款,覆盖算力、模型和应用赋能等多个层面,真正帮助企业“解难题,做难事”,让AI重塑千行万业。
目前华为的盘古大模型已广泛应用于政务、金融、矿山、汽车、气象、铁路、制药等10+重要行业,携手200个伙伴,300多个客户,构筑了30多个行业大模型和400多个AI应用场景。
我想这只是一个开始,随着华为云华东(芜湖)数据中心的开放,长在华为云上的国产AI,将会创造更多的价值。