(扫码报名)
在当今科技浪潮中,大模型发展迅猛,如风起云涌般席卷而来,深刻改变着诸多领域的面貌。然而,繁荣背后仍潜藏诸多亟待破解的谜题。一方面,大模型理论根基尚显模糊,模型框架高度依赖Transformer,创新突破面临瓶颈;基于强化学习提升大模型推理能力的路径迷雾重重,方向难明。另一方面,具身智能领域是否存在Scaling law(扩展定律)尚无定论,大模型Agent(智能体)的发展趋势也混沌未开。
本论坛汇聚学术精英,深度剖析大模型扩展律、幻觉现象、上下文学习等背后成因。同时,积极探索基于线性注意力构建卓越性能大模型的新路径,研讨大模型慢思考发展走向,探寻具身智能大模型的Scaling Law,洞察大模型智能体发展趋势。旨在打破学术壁垒,为大模型关键技术的前沿探索提供交流平台,推动大模型研究向更深、更广处迈进。
论坛安排
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 通过压缩理解大型语言模型行为:数据生成、知识获取与扩展律 | 李建 | 清华大学 |
2 | 基于线性架构的多模态理解与生成模型研究 | 王兴刚 | 华中科技大学 |
3 | 具身智能大模型Scaling Law | 郝建业 | 华为/天津大学 |
4 | 从推理到行动:大模型驱动的智能体探索与实践 | 沈永亮 | 浙江大学 |
5 | 大模型自动科研 | 张岳 | 西湖大学 |
Panel环节 | 李建 | 清华大学 | |
王兴刚 | 华中科技大学 | ||
郝建业 | 华为/天津大学 | ||
沈永亮 | 浙江大学 | ||
张岳 | 西湖大学 |
论坛主席
刘勇
中国人民大学长聘副教授
中国人民大学高瓴人工智能学院,长聘副教授,博士生导师,国家级高层次青年人才,YOCSEF总部AC。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。主持/参与国家自然科学面上/基金青年、科技部重点研发、北京市科技计划中央引导地方专项、北京市面上等项目。
共同主席
况琨
浙江大学副教授
浙江大学计算机学院副教授,博士生导师,人工智能系副主任,YOCSEF杭州候任主席。主要研究方向为因果推理、因果人工智能和智慧司法。在Cell Patterns, TPAMI, TKDE, ICML, NeurIPS, KDD等相关领域顶级期刊及会议上发表论文100余篇。作为项目/课题负责人承担国家重点研发专项、国家自然科学基金等项目,曾获ACM SIGAI中国新星奖,中国科协青年人才托举工程项目,吴文俊人工智能科技进步一等奖,教育部科技进步一等奖,中国电子学会科技进步一等奖。
论坛讲者
李建
清华大学长聘教授
清华大学交叉信息研究院长聘教授,博士生导师。研究方向为理论计算机科学、人工智能基础理论、金融科技。在主流国际会议和杂志上发表了100余篇论文,并获得了数据库顶级会议VLDB和欧洲算法年会ESA的最佳论文奖、数据库理论会议ICDT最佳新人奖、多篇论文入选口头报告或亮点论文。入选国家级青年人才计划。曾主持或参与了多项自然科学基金项目及企业合作项目。
题目:通过压缩理解大型语言模型行为:数据生成、知识获取与扩展律
摘要:大型语言模型在众多任务上展现了卓越的能力,但对于其底层机制以及诸如扩展律、幻觉现象、上下文学习等仍缺乏理论解释。基于Kolmogorov复杂性和Shannon信息论,将LLM预测下一个token的过程视为压缩中的二部编码,并基于该视角揭示了模型在规模增长时从句法模式到稀有知识的学习过程。提出了“句法-知识“的语言生成模型,并在贝叶斯框架下证明了压缩导致了LLMs的扩展律、并解释了LLM知识获取过程及产生幻觉的部分原因。