智能时代的新型网络架构、系统与优化：从GPT到DeepSeek_188体育app官网

编者寄语

DeepSeek的横空出世，在蛇年春节之际再次在全球范围内引爆了人工智能的热点话题。人们不禁好奇：Deepseek这种大模型是如何训练和部署的？在以DeepSeek为代表的训练和推理过程中，其成功的关键在于对包括网络和系统软硬件的全方位优化。随着人工智能的飞速发展，特别是以GPT为代表的大语言模型的崛起，对传统网络架构和系统提出了前所未有的挑战。为应对海量数据处理、高效模型训练和低延迟推理等需求，智能时代呼唤新型网络架构、系统与优化技术的出现。为了探究大语言模型对于网络和系统的需求，引领未来面向大模型信息系统构建技术的发展，本次专题汇集了华为、腾讯、阿里等互联网大厂的大模型训练部署实践，也梳理了大小模型协同、云际部署、DeepSeek系统软件优化等学术界的前沿技术，方便会员集中观看学习。

编委主任：苏金树 CCF会士军事科学院研究员

本期主编：赵宝康 CCF互联网专委副主任国防科技大学

本期编委：周寰国防科技大学

智能技术进入大规模智能计算阶段，网络技术是万亿参数模型计算不可或缺的支撑技术，甚至是大规模智能计算的重要瓶颈技术。本报告主要讨论三个方面内容：一是大规模智能计算中大网络若干特点；二是大规模智能计算的全定制网络技术、半定制网络技术、网络优化技术等三个技术方向；三是国内大模型网络面临的主要挑战和困难。

格式：

视频

生成式 AI 高效部署实践-基于超大模型的推理和部署实践

刘凯,

自 OpenAI 推出 ChatGPT 后，市场反应强烈。国内外科技公司快速跟进，到今年三月份，各公司逐步推出其专属的 ChatGPT 版本，并基于此开发逐步研发相关的商业应用。而 GPT 超大的模型结构在部署时产生的高延迟，高成本是其商业化路上的最大障碍。本报告将从小型化算法、推理框架及服务化部署等多个方面和大家分享工业级 GPT 高效部署优化方案。

格式：

文章

面向大模型的网络技术：从网算协同到通算融合

刘冰洋,

大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战，以及围绕这些挑战所做的创新。通过网络与计算的协同设计，构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术，将通信本身极致优化；进一步地，通过通信与计算的深度融合，跨越网和算的边界，系统性地优化计算和数据搬移代价，提升系统算效。

格式：

视频

大模型训练和推理中的高性能网络

缪葱葱,

大模型进入万亿参数时代，需要打造大规模、分布式的高性能计算集群。腾讯高性能网络提供高效跨域数据互通服务，具备业界领先的低价数据互联技术；利用自研交换机构建了超大规模网络架构，具备业界领先的1.6Tbps/3.2Tbps RDMA通信接入带宽，可扩展支持十万卡规模的GPU集群；自研高性能集合通信库TCCL和自研协议栈TiTa，通过软、硬件融合的优化方案实现AI通信的全局流量规划和拓扑亲和感知；构建了端网协同的监控运营体系，实现秒级故障自愈能力。

格式：

文章

大模型时代的阿里云基础设施网络研究与规模化部署

翟恩南,

拥有千亿级别参数的大语言模型已为今天的人工智能和云服务带来了巨大的技术与商业变革。然而，大模型的训练和通用云计算的网络模式行为存在很大差异。为了更好的支持大模型训练的效率，阿里云基础设施网络团队设计并研发了专门针对大模型训练网络特征的新型数据中心网络 HPN 架构，吞吐量提高平均 14.9%；此外，我们也设计研发了面向大模型多租训练的集合通信调度优化技术 Crux，将 GPU 计算利用率平均提高到多达 23%。此两项工作均被 SIGCOMM'24 发表。

格式：

视频

大小模型端云协同智能计算

吴帆,

人工智能的快速发展与广泛应用已成为经济社会发展的强大引擎。大小模型端云协同进化作为人工智能关键前沿技术，可有效克服云侧集中式学习范式在可扩展性、实时性、个性化、负载成本、隐私安全等方面的不足，已成为产学研的焦点，并被Gartner和阿里巴巴达摩院等国内外知名机构预测为革新智能计算范式的科技趋势。本报告将会追寻端云协同智能技术的发展脉络，分享团队在端侧智能推理、大规模联合学习以及端云协同分布式智能支撑系统等方面的研究进展。

格式：

视频