“虽然单芯片还落后美国一代典丰投资,但用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”创始人任正非近期的一次公开发声,向外界罕见透露了目前华为芯片研发的最新进展。
在华为过去长达六年的技术“补洞”中,围绕在包括芯片、软件等根技术上的布局一直是外界关注的焦点,尤其是人工智能时代加速到来,以昇腾为核心的AI算力能力正在成为中国厂商在全球计算生态卡位战中的重要变量。
虽然CEO黄仁勋视华为为最强劲的对手,在单芯片工艺受限的大环境下,华为算力能力依然面临着各种声音。华为在AI上能走多远?是否会因为工艺制程而落后?昇腾芯片被“警告”是否会有使用风险?此次任正非的表态,或许也是对这些问题的间接回应。
事实上,当全球 AI 产业还在为万亿参数模型的算力门槛焦虑时,中国正在以一种独特的“系统工程”思维方式重构这场技术竞赛的底层逻辑。从DeepSeek用算法优化刷新全球推理速度纪录,到昇腾超节点实现 300Pflops 算力的突破,中国算力产业正在上演一场从 \"单点突破\" 到 \"系统致胜\" 的范式革命。
在摩尔定律逼近量子墙的当下,这种将硬件堆叠、算法优化与生态协同熔于一炉的创新路径,或许正是破解全球算力困局的中国方案。
“不去想困难,干就完了,一步一步往前走。”任正非说。
算力会战:用系统工程方法解决工艺落后
在任正非最新的讲话中,人工智能、芯片技术以及基础研究被多次提及。他表示,“人工智能也许是人类社会最后一次技术革命,而芯片问题其实没必要担心,用叠加和集群等方法,计算结果与最先进水平相当。”
“数学补物理、非摩尔补摩尔、群计算补单芯片”,不到二十个字的表述背后实际上是华为芯片过去几年在“求生计划”中逐步摸索出的答案,用“系统工程”的方法解决了工艺落后的问题。
《论系统工程》是钱学森融汇自然科学、工程、管理学的著作,核心思想把研究对象看做一个整体而不是孤立的点,对复杂的系统问题进行综合管理,通过整体上的优化弥补单点的落后。在新中国资源有限的情况下,系统工程发挥了重要作用,帮助国家实现了国力的提升和追赶。
而在华为的实践中,系统工程的创新方式在解决算力的问题上也起到了关键作用。
在今年的新年致辞中,华为公司副董事长孟晚舟曾透露,华为十多个实验室与伙伴们的工程师组成了“大杂烩”团队,面对天成AI集群系统和单芯片性能的严峻工程挑战,创造性应用数学补物理、非摩尔补摩尔、系统补单点等思想,在散热、供电、高速、高密及大芯片在板可靠性等工程领域实现了极限突破。
在昇腾计算平台的相关研发上,华为为此展开了一场“算力会战”,并集结了超过万人的团队。一位华为的技术专家对记者表示,华为的部门是以能力建设为核心的,技术上要扎到根。但是这些能力怎么有效利用起来,相互之间怎么打通?就需要类似“会战”这样的跨技术领域作战的项目型组织,华为有这样的环境,能够整合“大杂烩”优势做到系统最优。每个部门要持续地在本领域做深做透,“扎到根、捅破天”。
实际上,算力会战的组成人员横跨华为多个部门,包括了华为云、计算产品线、海思、网络产品线、光产品线、2012实验室,覆盖了云计算、模型、底座、芯片、硬件工程和基础软件等多个能力领域。
目前,华为有86个实验室,每个实验室与都有自己专注做强的领域,从而实现技术扎到根,做到“根深”,这样华为就有86根技术柱子。而这些扎到根的技术通过跨部门作战,深度协同在华为多个业务领域得到充分应用,有效发挥出技术的价值,这就是“叶茂”。在上述技术专家看来,“根深叶茂”就是华为在研究与创新方面持续努力的方向。
“算力基础设施现在是复杂的系统,我们把各个部分打通了,公司构建了这样的环境和机制。”上述技术专家对记者表示,这一组织是华为内部长期性的项目型组织典丰投资,其协作效率远超不同公司间的合作。不同公司间也许涉及技术保密等问题,难以实现深度协同与系统整合,也无法实现系统工程的最优解。
寻求突围:超节点终结算力焦虑
在近日公布的SuperCLUE模型榜单上,华为盘古72B(Pangu Pro MoE)大模型获得了千亿内模型并列国内首位的成绩,该模型总参数量为720亿,运算激活160亿参数量,通过动态激活专家网络的创新设计,实现了“以小打大”的优异性能,甚至可以媲美千亿级模型的性能表现。
而在MoE 模型训练领域,华为再进一步,推出了参数规模高达 7180 亿的全新模型盘古 Ultra MoE,这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型,算力利用率大大提高。值得注意的是,目前全球能够全链路训练和推理万亿参数MoE大模型的国家只有中国和美国。
在训练方法上,华为团队不断优化技术,如采用适配昇腾硬件的自适应流水掩盖策略,优化算子执行序,降低 Host-Bound 并提升 EP 通信掩盖;开发自适应管理内存优化策略;通过数据重排实现 DP 间 Attention 负载均衡;进行昇腾亲和的算子优化等。这些技术的应用使得万卡集群预训练 MFU 由 30%大幅提升至 41%。
这些成绩代表了什么水平?一般情况下,行业内的MoE大模型训练的MFU大约是30%,但华为在这一数值的实验室数据已经达到了45%。
从 \"参数至上\" 的军备竞赛,转向 \"效能优先\" 的价值创造,华为用系统工程思维不仅缩小了与海外厂商的代际差距,更向外界证明了国产算力也能训练出全球一流的大模型。
今年4月份,华为云在4月10日发布了CloudMatrix 384超节点技术,成功实现超节点技术商用,这也是在当下先进工艺制程尚未突破的情况下,华为持续追赶英伟达的成功关键。
当前业界一台算力服务器通常是8张算力卡,这一台服务器就称为一个节点,而英伟达已经率先在2024年3月发布了NVL72超节点,可以把72张训练卡组成一个超节点。但华为云公布的CloudMatrix 384超节点技术则更进一步,可以实现384张昇腾算力卡成为一个超节点,这不仅是中国规模最大的商用超节点,而且是目前已商用的超节点中,单体规模全球最大,有效算力全球最高的技术。
超节点技术的意义,在于推动算力从 \"奢侈品\" 变为 \"自来水\"。当 384 张卡的集群能像单机一样灵活调度,企业能更便捷得训练和推理自己的万亿模型。换言之,它终结了当下全球所面临的算力焦虑。
破局赶超:让超一流大模型长在中国的算力底座上
华为的实践揭示了业内一个被忽视的真相:当集群规模突破千卡量级,通信、存储等资源调度的开销将呈指数级增长,单芯片性能差距对整体效能的影响反而逐步被稀释。
比如超节点通过重新定义对等架构互联总线,将机器间单跳通信延迟从 2微秒压缩至 200 纳秒,这种 \"算网存调\" 的协同优化,使得 384 卡集群的整体效能逼近理论极值。正如半导体行业堆叠的架构创新,大模型算力竞争也正在从 \"芯片制程竞赛\" 转向 \"系统架构革命\"。
这也正是任正非所说的“数学补物理、非摩尔补摩尔,用群计算补单芯片”的精髓所在,同时也为超一流大模型长在中国的算力底座上提供了有效路径。
2024 年,当全球芯片产业集体逼近 1nm 制程的 \"量子墙\"时,电子隧穿效应引发的物理极限让摩尔定律首次面临失效危机。在这个关键转折点,“非摩尔补摩尔”意味着不再沿着传统制程优化的单行道走到黑,而是通过系统工程创新实现“以面积换能力、以堆叠增容量、以集群扩规模”的多维突破。
华为早在 2019 年就布局了芯片堆叠技术,如今已转化为十几项核心专利的先发优势。从 2D 电子高速公路到 3D 立体网络的架构跃迁,本质上是将物理层面的制程瓶颈转化为系统层面的架构创新。就像传统汽车工业中,发动机功率并非是决定驾驶体验的唯一因素,整车系统的协同优化同样能创造颠覆性体验。
而集群计算补单芯片的策略则展现了更宏大的系统思维。华为超节点将 384 张卡的集群视为一个有机整体,通过光通信技术将互联带宽提升 15 倍,基于操作系统实现资源池化与超级并行,最终让 \"384卡如同一台机器\" 的协同计算成为可能。
华为内部人士表示,昇腾384超节点选择对传统计算架构进行重构。它的核心在于彻底打破了传统以CPU为中心的冯诺依曼架构,也就是“主从架构”,创新提出了“全对等高速互联架构”,凭借高速互联总线的关键突破,把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,这样做就能去除掉繁多的中转环节,从而实现真正的点对点互联,进而实现更大的算力密度和互联带宽。
“用数学补物理”的算法优化则是系统工程的灵魂所在。静态算力指标如同交通基础设施的物理参数,而动态算力效能则相当于实际车流量与通行速度。在昇腾万卡集群上,通过负载均衡、通信掩盖等算法创新,将计算与通信耗时比从传统的 1:1 提升至 3:1,这种 “多干活少协调”的效率革命,使得 41% 的算力利用率、98% 的集群可用性等动态指标不断突破行业上限。如同交通调度系统能让相同道路容纳更多车流,精妙的算法优化也在让既定硬件释放超越物理极限的算力潜能。
华为技术专家表示,“系统工程是当前形势下华为优先努力的方向。我们通过高效的超节点系统,把芯片算力利用率提上去了。”
开源决心:从硬件封闭到生态共创
当前,人工智能发展已经是全球技术竞争的战略高地。大模型产业链的部分高端核心硬件受限、算法框架生态待增强,如何在这些关键技术领域实现突破,是我国AI产业亟待解决的问题。
同时,在华为看来,昇腾未来的路径一定是要“越来越开放”。
今年年初,DeepSeek的成功,彰显了开源模式的强大力量。这也更加坚定了AI发展的大方向,现阶段大模型及应用正在陆续走出实验室,最终走入千家万户、千行百业才能成为改变世界的力量。
华为技术专家对记者表示,在生态建设上,昇腾虽目前劣于英伟达 CUDA 生态,且需长期改进,但华为已将生态兼容性作为核心任务。2024 年以来,随着业界模型逐步收敛至 Transformer、Diffusion 等主流架构,核心算子从过去的十万级缩减至几百个,昇腾借此快速补齐高质量基础算子,并深度开放给技术能力较强的头部客户,使其能基于基础算子开发适配自身模型与应用的算子算法。
“目前已实现对 DeepSeek MoE、千问、Llama 等开源模型的支持,基本解决算子短缺问题。未来,昇腾将通过分层深度开放与开源策略,赋能客户自主开发优化,匹配其应用需求与开发模式,持续推动生态完善。”上述专家说。
近几个月以来,华为逐步开放底层,对接社区生态,从而吸引更多的开发社区力量基于华为的底座创造新的算子算法。
尽管AI技术、大模型与算法的迭代从未停歇,但华为相信,唯有深度赋能千行百业,才能真正释放改变世界的能量。
未来,算法主导权将从IT技术圈层向垂直领域专家转移——电力系统的智能化优化离不开电网专家的运行经验;基建工程的高效调度依赖土木专家的施工逻辑;煤炭开采的智能化转型需要矿企专家的工况认知,医药研发的加速推进更需生物专家的分子机理洞察。中国正以独特的产业实践优势推动AI落地。
这不仅是华为等技术企业的发展愿景,更是中国人工智能产业在全球竞争中实现换道超车的关键路径。
盈策略提示:文章来自网络,不代表本站观点。