智能技术进入大规模智能计算阶段,网络技术是万亿参数模型计算不可或缺的支撑技术,甚至是大规模智能计算的重要瓶颈技术。本报告主要讨论三个方面内容:一是大规模智能计算中大网络若干特点;二是大规模智能计算的全定制网络技术、半定制网络技术、网络优化技术等三个技术方向;三是国内大模型网络面临的主要挑战和困难。
自 OpenAI 推出 ChatGPT 后,市场反应强烈。国内外科技公司快速跟进,到今年三月份,各公司逐步推出其专属的 ChatGPT 版本,并基于此开发逐步研发相关的商业应用。而 GPT 超大的模型结构在部署时产生的高延迟,高成本是其商业化路上的最大障碍。本报告将从小型化算法、推理框架及服务化部署等多个方面和大家分享工业级 GPT 高效部署优化方案。
大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战,以及围绕这些挑战所做的创新。通过网络与计算的协同设计,构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术,将通信本身极致优化;进一步地,通过通信与计算的深度融合,跨越网和算的边界,系统性地优化计算和数据搬移代价,提升系统算效。
大模型进入万亿参数时代,需要打造大规模、分布式的高性能计算集群。腾讯高性能网络提供高效跨域数据互通服务,具备业界领先的低价数据互联技术;利用自研交换机构建了超大规模网络架构,具备业界领先的1.6Tbps/3.2Tbps RDMA通信接入带宽,可扩展支持十万卡规模的GPU集群;自研高性能集合通信库TCCL和自研协议栈TiTa,通过软、硬件融合的优化方案实现AI通信的全局流量规划和拓扑亲和感知;构建了端网协同的监控运营体系,实现秒级故障自愈能力。
拥有千亿级别参数的大语言模型已为今天的人工智能和云服务带来了巨大的技术与商业变革。然而,大模型的训练和通用云计算的网络模式行为存在很大差异。为了更好的支持大模型训练的效率,阿里云基础设施网络团队设计并研发了专门针对大模型训练网络特征的新型数据中心网络 HPN 架构,吞吐量提高平均 14.9%;此外,我们也设计研发了面向大模型多租训练的集合通信调度优化技术 Crux,将 GPU 计算利用率平均提高到多达 23%。此两项工作均被 SIGCOMM'24 发表。
人工智能的快速发展与广泛应用已成为经济社会发展的强大引擎。大小模型端云协同进化作为人工智能关键前沿技术,可有效克服云侧集中式学习范式在可扩展性、实时性、个性化、负载成本、隐私安全等方面的不足,已成为产学研的焦点,并被Gartner和阿里巴巴达摩院等国内外知名机构预测为革新智能计算范式的科技趋势。本报告将会追寻端云协同智能技术的发展脉络,分享团队在端侧智能推理、大规模联合学习以及端云协同分布式智能支撑系统等方面的研究进展。
本文提出了插拔式的大模型服务托管框架与多模型协同架构,实现大模型推理服务的快速构建与效率优化;介绍了通过工具插件机制建立大模型服务与既有软件系统的联接,扩展大模型的能力边界;讨论了通过整合云际算力构建异构算力集群,形成可灵活弹性伸缩的算力基础设施,支撑大模型云服务系统规模化部署。
该视频分享了 DeepSeek 在系统软件方面的技术,介绍DeepSeek V3 模型的训练成本、核心架构与并行策略,重点阐述负载均衡、通信、内存、计算四方面的优化措施,最后表达对 DeepSeek 技术创新、开源价值的思考。