2025年11月17日,以"生态共融·智驱未来"为主题的龙蜥操作系统大会在北京隆重召开。作为龙蜥社区副理事长单位,浪潮信息深度参与了此次盛会。面对智能体技术推动下AI推理需求的迅猛增长,元脑服务器操作系统KOS迎来了重要升级,这款基于龙蜥技术路线开发的元脑服务器系统通过在内存池化分层、vLLM协同优化等关键领域的技术创新,成功实现了大模型运行时系统吞吐量提升20%以上,GPU带宽使用率提升50%的显著效果,为智能体产业化发展构建了更加高效的元脑服务器操作系统底座。

大模型推理时代,服务器操作系统要AI原生化
会上,由中国智能计算产业联盟和电子四院主导撰写的《服务器操作系统发展报告(2025)》(以下简称为“报告”)正式发布。报告指出,“云+AI”正在重塑和加速服务器操作系统的发展,未来服务器操作系统必须同时满足高并发弹性调度与高效智能计算的双重目标,显著提升算力的使用效率与资源的自动化管理水平,才能满足指数增长的AI计算需求。
自2023年起,全球范围内用于AI推理的算力消耗已超过训练,且差距持续拉大。这一趋势反映了大模型商业化落地后,实际应用场景(如智能客服、内容生成、推荐系统)对推理算力的强劲需求。IDC预测,在中国,推理工作负载占AI服务器总负载的比例将从2025年的67%增长至2028年的73%。
与传统计算任务不同,AI推理具有高并发、低延迟、专用加速芯片多元异构、资源敏感等鲜明特征,这些特性要求操作系统要更加主动的理解AI工作负载,提供一个高效、安全、可扩展的AI运行环境,这不仅涉及操作系统在内核调度、内存管理、安全模型等核心技术的重构,更要求操作系统与TensorRT、vLLM等AI框架深度协同,形成软硬一体的高效推理栈。
龙蜥社区技术委员会副主席、浪潮信息系统软件产品部总经理苏志远认为,从长远来看,服务器操作系统必须面向AI原生持续演进。这场演进的本质,是服务器操作系统从被动响应资源请求的“管理者”,转变为能主动理解AI语义、协同异构硬件、优化端到端推理链路的“智能运行底座”,不仅需要更大级别的创新,也需要产业生态的合力,才能共同打造最AI的服务器操作系统。
元脑KOS全新升级,持续向最AI的服务器操作系统演进
操作系统向AI原生演进将是渐进式的,要根据大模型软硬件技术的发展,持续满足对异构算力环境的支持,对海量、多级存储的管理,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构的支持等等,解决AI在实际应用中面临的技术瓶颈。
此次元脑KOS升级主要针对AI推理当前面临的算力与数据搬运瓶颈,通过内核级优化,实现高效计算与快速I/O,将系统吞吐量提升20%以上,GPU间通信带宽提升50%。
在算力层面,AI推理虽然高度依赖GPU、NPU、TPU等专用加速器,但并不意味着CPU仅能作为控制中心存在,这会带来算力资源的浪费。元脑KOS针对预填充和解码的计算特征不同,一方面通过元脑KOS和vLLM的协同优化,按需在CPU和GPU间动态调度解码任务,提升并行计算能力;另一方面将MoE模型的路由专家卸载到CPU端,在显存受限条件下仍可以支撑大模型运行。基于元脑KOS,企业级客户可在中低端AI算力平台上,实现轻量化AI推理方案的快速部署。
在内存层面,大模型推理动辄占用数十GB显存,且其计算过程涉及稀疏激活、KVCache等复杂结构,传统通用内存分配策略难以满足效率需求。其中,KVCache作为推理过程中关键的性能资源,一向是优化的重点。元脑KOS基于CXL池化共享内存构建起KVCache分级存储,采用CXL共享内存代替RDMA实现集群间免网络的数据通信,可将首token生成时间降低10%,降低网络设备投入成本,同时通过CXL扩展内存容量将每GB内存成本降低20%;通过增加CXL池化内存层级可以使平均首token生成时间下降40%,KVCache完全复用时首token生成时间下降80%。

苏志远进一步表示,未来的操作系统需构建分层、智能的内存管理体系,打通CPU内存、GPU显存、持久内存乃至远程内存池的统一虚拟地址空间。在此基础上,引入模型感知的分配器,根据张量布局优化内存对齐与NUMA亲和性,并支持多个推理实例安全共享模型参数,显著降低冗余内存开销。
筑基智算,以龙蜥智算联盟构建开放协同AI新生态
大模型时代,操作系统要发挥关键生态位作用,做好上游芯片与下游AI应用开发商之间的纽带,实现AI能力的快速价值转化。在当前算力产业格局下,龙蜥社区的一个重要目标就是推动本土芯片快速融入到AI发展浪潮之中,实现本土算力从“可用”向“好用”的质变。
对此,浪潮信息牵头成立龙蜥智算联盟,汇聚AI芯片、服务器、操作系统、应用开发及高校等产业链各方,以“打造AI原生操作系统、形成开放兼容的AI生态体系、增强AI产业链竞争力”为目标,推动操作系统和AI融合发展,促进AI技术在各行业的落地应用。
浪潮信息在会上公布了联盟在性能优化、兼容易用、稳定可靠等方向的技术研究进展。性能方面,实现了基于CXL共享内存池的KVCache分级存储,提升了推理吞吐性能;兼容易用方面,联合国内GPU厂商在龙蜥OS上新增了超800个硬件KABI接口,建立了AI容器参考规范,并首批发布了7个AI容器镜像,为用户AI软件栈部署提供支撑;稳定可靠方面,围绕本土GPU故障信息提取等内容起草了标准规范,提升AI基础设施的RAS处理能力。
未来,依托龙蜥智算联盟等开源组织,系统厂商与本土芯片厂商将实现深度联动,聚焦异构计算、资源调度、RAS增强等关键领域持续创新,打造软硬件高效协同的AI Infra生态体系,支撑人工智能产业高质量发展。

本次2025龙蜥操作系统大会由多个权威机构联合指导,龙蜥社区主办,阿里云、浪潮信息、Intel、Arm等25家理事单位共同承办。最新调研数据显示,在企业用户当前采用的服务器操作系统中,龙蜥生态相关的社区版和商业版市场占有率已接近50%,元脑服务器系统的装机总量更是突破了1000万大关。这一成就充分证明了元脑服务器操作系统在业界的广泛认可度和技术领先地位,标志着元脑服务器生态正在成为推动AI基础设施发展的重要力量。
浪潮信息服务器开机3秒智能控温技术,为数据中心运维人员解决了“服务器部署时启动时间过长,且风扇启动瞬间噪音过高,实现上电即开机,开机速度较业界平均速度最大提升1.2倍,助力业务快速上线,减少因为运维和维护造成的业务搁浅时间。
浪潮负载均衡服务,即在多台云服务器间实现应用程序流量的自动分配。它可以扩展整个系统的处理能力并提供应用程序容错的能力,消除由于单台云服务器的故障对系统的影响,可实现故障自动切换,提高业务可用性,并提高资源利用率。
近日,北京恒赢智航科技有限公司在成都成功举办了以“拥抱大模型,提质民航生产力”为主题的2024年度用户大会。作为创新技术领军企业,浪潮计算机受邀参会。会上,浪潮计算机服务器产品部总经理闫家乐与恒赢智航副总裁万鹏签署战略合作协议,双方还联合发布了“大模型一体机”。
第三方调研机构赛迪顾问发布《2023中国数据要素流通市场研究报告》。结果显示,浪潮云跻身市场领导者象限,并在市场地位和发展能力方面位居TOP3。
一个季度赚了123亿美元的英伟达,现在成了许多半导体企业艳羡的对象,大家头一回发现,原来GPU利润这么高,甚至能撑起2万亿美元的市值,但英伟达真的会满足于此吗?
NP3020G7是浪潮信息新一代入门级单路塔式服务器,专为远程办公环境、邮件以及打印服务等整体解决方案提供可靠的硬件基础。可根据客户实际应用环境,灵活扩展,满足客户不断变更的应用需求,应对不断变更的运行环境。
NP5570M5,浪潮信息全新一代中高端双路塔式服务器产品,具备出色性能、灵活扩展、稳定可靠等特性。
1U空间实现性能、密度、扩展性最大化设计,适用于虚拟化等多种计算密集型业务场景,提供丰富的存储矩阵,最大程度满足扩展性及网络均衡性需求,同时在1U机型首次导入风冷、冷板液冷、浸没液冷多维散热方案,满足更多高密数据中心低PUE诉求。
2U双路存储优化服务器,采用创新三层存储架构,在高存储密度、超强算力、高网络带宽、智能管理等方面得到大幅提高,适用于大数据、CDN、超融合、分布式存储等业务场景。
支持英特尔至强第四代/第五代可扩展处理器,在计算性能、存储性能及可扩展性方面均实现极致设计。支持前、后IO维护等多元部署方式,打破传统数据中心运维瓶颈。融合诸多业界先进技术,导入液冷、EVAC等高效散热模式。
兼顾高存储容量、强大计算性能和极致IO扩展能力,非常适用于温/冷数据存储、视频存储、大数据 存储、云存储池搭建等应用场景。
以强劲的计算性能,模块化的灵活设计,卓越的扩展性,更优的可靠性和安全特性,为客户数据密集型关键业务而优化
满足多核心、高主频、灵活扩展等要求,在1U空间内提供单处理器的峰值性能,是浪潮信息针对互联网、云计算、企业市场应用等需求推出的一款密集型、高性价比服务器
是浪潮信息为针对互联网、云计算、虚拟化、大数据等需求推出的一款机架式服务器
该产品以强劲的计算性能,完善的生态兼容,灵活百变的配置变换满足各行业应用配置需求,尤其适用于虚拟化、高性能计算、虚拟桌面等多种应用场景。
1U空间实现性能、密度、扩展性最大化设计,适用于高性能计算,虚拟化等多种计算密集型应用场景,满足高密数据中心部署。
浪潮信息NF5260M6是搭载第三代英特尔®至强®可扩展处理器的一款2U双路机架式服务器。采用创新前I/O架构,优化网络灵活模块化设计,模块深度拆解,PCIe资源高度灵活,满足不同客户的定制化需求。创新架构,适配各类互联网应用,是数据中心的理想之选。
高密度机架式存储服务器。
NF5270M6是浪潮信息一款中端2U服务器,以精简设计理念为小型虚拟化、数据库、办公OA系统等应用场景量身定做的服务器。
该产品以强劲的计算性能,完善的生态兼容,灵活百变的配置变换满足各行业应用配置需求,适用于数据分析处理、云、高性能计算等多种应用场景。