CNCC | 超万卡大模型集群网络系统,现状、机遇与挑战?
CNCC2024
论坛简介:
超万卡大模型集群网络系统,现状、机遇与挑战?
举办时间:10月24日13:30-17:30
地点:夏苑-泰国馆一楼
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
面向AGI的模型探索伴随着复杂的超大规模AI集群规划、建设、运维、优化过程,对相关企业的基础设施能力提出了前所未有的挑战。如何构建一个稳定、高效、安全、可扩展的AI网络环境,需要深入理解架构设计,了解部署和运行限制,维持硬件设备高效运转,分析面临的关键技术挑战,确保业务获得最优效果。
本论坛邀请华为、百度、阿里、腾讯、字节、Google等支持超万卡集群的业界专家和学术界老师全方面介绍目前实际的业务特征,训练和推理服务的需求,超大规模集群的架构设计思路、硬件软件供应部署状况、并行策略应用原理、网络通信性能优化方法、网络协议(IB、RDMA、以太网)设计与扩展建议、端到端监控调优策略等问题、解释说明行业难题和现阶段方案,通过比较、展示、样例分析为广大师生和一线工程技术人员提供第一手的问题定义和行业现状。
本论坛将进一步讨论未来国内外大规模GPU集群互联的Scale-up, Scale-out 方案的发展思路,超万卡集群网络的设计趋势,开放网络设计,针对GPU 互联等卡脖子问题的破局方案,以及其中涉及到的行业发展理念与观点。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 网络技术新篇章:为AI大模型训练与推理构建高效平台 | 张亮 | 华为技术有限公司 |
2 | 大规模GPU集群互联的挑战与应对 | 李兆耕 | 百度在线 |