暴力计算触及极限，算力进入系统工程时代业内：基于生态的开放架构有望成为最优解

在大模型快速迭代、算力需求指数级攀升的背景下，算力产业似乎正在经历一场路径层面的调整。

过去几年，全栈能力一度被视为国产芯片厂商缩短差距、提升竞争力的关键路径，从芯片设计到整机系统，芯片厂商曾试图以一家之力构建起算力闭环。但在最新的行业共识中，这一路线正被越来越多厂商主动反思甚至修正。

在近日举行的光合组织2025人工智能创新大会上，多位来自芯片、服务器、整机和系统厂商的核心人物强调：算力竞争已经从单点性能转向系统效率，从全栈路线转向多方协同的系统工程。

这一转向并非理念变化，而是大模型时代真实工程约束下的必然结果。

正如中国科学院院士周成虎所言，数字社会需要一个超级大脑来支配其发展，计算正是这大脑背后的核心支撑，GPU（图形处理器）、CPU（中央处理器）、TPU（张量处理器）等让我们能够通过暴力计算来理解数据的实质。但与此同时，随着大模型参数量向万亿级甚至十万亿级跨越，过去那种依靠单一芯片性能提升的暴力计算模式正在触碰物理与效率的极限。

光合组织2025人工智能创新大会现场图片来源：主办方

从芯片性能到系统效率，单点突破正在失效

“人工智能产业（链条），从芯片到系统到应用，整体链条非常长，但是现在整体的趋势又需要这些东西紧耦合在一起，不是某一个环节做好就可以的。”中科曙光高级副总裁李斌判断，今天的大模型对算力的要求已经不是某一颗芯片算得快不快，而是整个系统能不能长期、稳定、高效地跑起来。

在人工智能发展的初级阶段，算力的提升主要依赖于GPU、CPU等单一处理器性能的迭代。但当任务的复杂度实现跨越式提升、处理时长高速增长时，单一芯片的优化已显得杯水车薪。

随着模型规模向万亿参数演进，算力系统面临的挑战已不再局限于算力峰值，而是延伸至互连带宽、存储层级、供电制冷、系统稳定性等系统性指标。

李斌指出，随着算力规模的不断扩大，首先需要保障可扩展性，避免计算效率下降，同时，规模扩大意味着可能导致系统可靠性下降的原因也会变多，而可扩展性、可靠性以及系统的能效和能耗都是决定系统是否可用的关键因素。

这也意味着，如果不能从系统层面解决能效和推理效率问题，AI的规模化落地将难以为继。

IDC中国区副总裁兼首席分析师武连峰表示，为了支持万亿规模的大模型，传统的计算节点已无法适应，行业共识正转向超节点和超集群模式，即通过超高速总线将不同的GPU焊接在一起，形成高密度的计算单元，以更好地满足用户的需求。

武连峰表示，传统集群在节点规模扩大后，通信开销往往占用30%~50%的资源，使得算力不能被充分利用，而超集群本质上是把算力从硬件工程升级为系统工程，需要在算、存、网、电、冷、管、软等多个维度协同融合，而非简单堆叠芯片。

这也意味着，过去依赖单点性能突破来弥补系统短板的思路正在失效。即便芯片性能持续提升，如果互连协议不统一、系统软件不兼容、运维可靠性不足，整体算力效率依然会被迅速稀释。

海光信息副总裁吴宗友在接受包括《每日经济新闻》记者在内的媒体采访时也指出，在国产化快速推进的过程中，芯片种类的快速增加反而给用户带来了新的负担，每一种芯片都需要单独适配、优化和维护，性能并不能直接转化为用户的实际收益。

全栈模式的代价：生态内耗与用户痛点

在市场发展初期，不少国产厂商选择全栈自研模式，试图通过紧耦合的技术架构建立竞争围墙。

李斌在接受采访时表示，这种现象的背后是厂商的普遍焦虑：由于人工智能产业链极长，厂商担心只做某一个环节无法掌控市场，于是纷纷开启全栈模式。然而，这种尝试带来的结果却是“内卷”加剧，各家都想做全套，却在每一层上都难以做到极致，最终形成了多个封闭的小生态。

这种割裂的生态给最终用户带来了巨大的困扰。吴宗友指出，过去几年国产芯片行业发展迅速，但也让用户陷入了适配的难题中。面对众多的芯片路线，用户需要投入高额成本进行重复的适配和优化，每个芯片的接口、总线各不相同，这种适配难度极大降低了开发效率。

武连峰也证实，目前生态挑战依然严峻，算法和算子往往锚定在某个特定生态，移植过程短则数月，这不仅浪费了时间成本，也造成了人才资源的消耗。

整机厂商的感受更加直接。

雷神科技董事长路凯林提到，国产AI工作栈发展的瓶颈之一正是生态资源的丰富度。相比英伟达积累数年的海量生态，国产算力在硬件与软件的无缝衔接上仍有差距，“生态的打通和生态的丰富度应该是制约我们快速发展一个很重要的瓶颈，但是好在现在也在快速突破。”

对于厂商而言，维持全栈同样意味着资源的极度分散。

光合组织秘书长任京暘坦言，以前产业内各自为战，厂商在不见面的情况下互相揣摩、对抗。

参会的行业人士络绎不绝图片来源：主办方

开放计算被推上前台，但执行成本同样不低

在反思全栈路线的同时，开放计算被推到了舞台中央。但多位受访者也强调，开放并非一条低成本路径。

任京暘表示，今天的开放计算意味着厂商要从“一家通吃”中跳出来，往多厂商各司其职、相互协作、共赢的方向走。这种转变的核心在于分层解耦，即在芯片、存、液冷、网络等每一层都由多个优秀厂商集群式地攻关，打破以自我为中心的紧耦合架构。“以前产业内各自为战的情况比较多，初期的时候是可以的，大家反正也不知道路在哪儿，摸着石头过河。现在道路比较清晰了，所以就需要整合”。

然而，走向开放并非易事，它首先要求厂商让渡一部分控制权和利润空间。

任京暘指出，真正的开放意味着在关键接口和能力上让渡控制权和部分利润空间，同时还要建立一套可执行的协调机制，而不是停留在口号层面。在他看来，开放计算的难点不在技术，而在组织和协作分配。

具体到执行层面，开放计算首先要求对产业链进行分层解耦。芯片、互连、存储、散热等环节由多家厂商并行推进，在各自层面形成竞争与合作并存的格局；与此同时，各层之间又必须通过统一标准重新紧耦合，否则系统效率同样难以保障。

这种模式对平台方提出了更高要求。任京暘认为，需要有具备公信力的平台来承担协调角色，确保制度保障和资源保障，在供需对接、标准制定和冲突调解中发挥作用。

吴宗友则从市场格局角度提出，开放架构实际上为AI产业的进化提供了一种路径选择。在他看来，如果继续各自为战，最终开放架构之外的生态很容易跟不上时代。

在路凯林看来，场景正在倒逼技术升级。随着国产算力增强，垂直小模型在本地工作站部署的需求激增，这种由场景驱动的协同赋能，让硬件与应用实现了真正的相互咬合。而这种基于生态的开放架构，正实实在在地降低不同行业适配AI的成本。

不过，转向也并不意味着路线之争的终结。任京暘在采访中也谈到，紧耦合的封闭体系与开放协同的体系，在国内丰富的应用场景中仍将长期并存。

在大模型和超集群成为常态之后，能否构建一个高效、可协同、可持续演进的系统，将成为决定厂商生存空间的关键变量。

上一篇： IDC发布最新服务器与存储市场报告：AI热潮下的冷暖不均
下一篇：祝贺！元脑伙伴荣获2025 IDC中国生态奖，引领AI+产业融合

热门文章推荐 HOT NEWS

浪潮信息首创3秒智能控温技术，降噪30.4%
浪潮信息服务器开机3秒智能控温技术，为数据中心运维人员解决了“服务器部署时启动时间过长，且风扇启动瞬间噪音过高，实现上电即开机，开机速度较业界平均速度最大提升1.2倍，助力业务快速上线，减少因为运维和维护造成的业务搁浅时间。

2024-08-23 浏览170
什么是浪潮负载均衡服务？
浪潮负载均衡服务，即在多台云服务器间实现应用程序流量的自动分配。它可以扩展整个系统的处理能力并提供应用程序容错的能力，消除由于单台云服务器的故障对系统的影响，可实现故障自动切换，提高业务可用性，并提高资源利用率。

2024-09-23 浏览163
浪潮计算机与民航信息化企业联合发布“大模型一体机”
近日，北京恒赢智航科技有限公司在成都成功举办了以“拥抱大模型，提质民航生产力”为主题的2024年度用户大会。作为创新技术领军企业，浪潮计算机受邀参会。会上，浪潮计算机服务器产品部总经理闫家乐与恒赢智航副总裁万鹏签署战略合作协议，双方还联合发布了“大模型一体机”。

2024-10-23 浏览99
浪潮云跻身中国数据要素市场领导者象限TOP3
第三方调研机构赛迪顾问发布《2023中国数据要素流通市场研究报告》。结果显示，浪潮云跻身市场领导者象限，并在市场地位和发展能力方面位居TOP3。

2024-03-18 浏览98
浪潮信息：全球服务器市场的领军者与AI算力基础设施的推动者
根据Gartner最新发布的全球服务器市场追踪报告，浪潮信息的元脑服务器在2024年前三季度实现了快速增长，出货量达到100.2万台，同比增长20.7%，市占率为11.3%，继续稳居全球第二，并在中国市场中排名第一。这一增长得益于AIGC技术的迅速发展，推动了全球对AI算力基础设施的投资。

2025-04-14 浏览93

从芯片性能到系统效率，单点突破正在失效

全栈模式的代价：生态内耗与用户痛点

开放计算被推上前台，但执行成本同样不低

成都强川科技有限公司

联系我们

在线咨询

电话咨询

暴力计算触及极限，算力进入系统工程时代 业内：基于生态的开放架构有望成为最优解

从芯片性能到系统效率，单点突破正在失效

全栈模式的代价：生态内耗与用户痛点

开放计算被推上前台，但执行成本同样不低

成都强川科技有限公司

联系我们

在线咨询

电话咨询

暴力计算触及极限，算力进入系统工程时代业内：基于生态的开放架构有望成为最优解