CNCC | 大模型的安全与超级对齐
CNCC2024
论坛简介:
大模型的安全与超级对齐
举办时间:10月26日13:30-17:30
地点:夏苑-海晏堂一楼1号厅
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
随着人工智能领域的迅猛发展,大模型技术以其强大的语义理与推理能力,成为推动技术革新的引擎。然而,这一进步也伴随着安全与伦理的双重挑战。本论坛旨在探讨和解决大模型技术发展所面临的安全、价值对齐和超级对齐问题。论坛内容涵盖了从内容安全视角审视大模型的潜在风险、大模型智能体行为的安全、大模型的可解释性和可信,价值观对齐与超级对齐的研究,这些内容是最终构建安全、可信、可靠大模型的核心技术。通过对大模型安全与超级对齐中的关键技术进行深入的交流与讨论,进一步预测其发展前景,并提出未来切实可行的安全与对齐解决方案,推动大模型技术的健康持续发展,确保其在服务人类社会的同时,有效规避潜在的伦理风险和安全威胁,实现技术进步与社会责任的和谐统一。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 可信人工智能 | 操晓春 | 中山大学 |
2 | 大模型智能体的行为安全探索 | 张倬胜 | 上海交通大学 |
3 | 大语言模型对齐方法及后训练范式探究 | 杨耀东 | 北京大学 |
4 | 大模型解释与对齐 | 王希廷 | 中国人民大学 |
5 | 跨模态生成大模型鲁棒性缺陷模式挖掘 | 王岚君 | 天津大学 |
论坛主席及嘉宾介绍
论坛主席
黄民烈
清华大学长聘教授
国家杰青,清华大学基础模型中心副主任,自然语言生成与智能写作专委会副主任、CCF学术工委秘书长、杰出会员,中文信息学会理事。研究领域为大规模语言模型、对话系统、语言生成,著有《现代自然语言生成》一书。曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖、电子学会科技进步一等奖、中文信息学会汉王青年创新奖,微软合作研究奖等。在国际顶级会议和期刊发表论文150多篇,谷歌学术引用21000多次,连续多年入选Elsevier中国高被引学者、AI 2000全球最有影响力AI学者榜单;多次获得国际顶级会议论文奖项。研发中文对话大模型CharacterGLM,心理大模型Emohaa等。
论坛共同主席
严睿
中国人民大学长聘副教授
入选国家级青年人才计划,入选微软铸星学者,智源人工智能研究院智源青年科学家,中国人民大学杰出学者,担任多个国际重要学术会议的领域主席(Area Chair)和资深评审人(Senior PC),担任自然语言处理重要评审平台ACL Rolling Review的执行编辑(Action Editor)。在国际重要的期刊会议上发表论文150余篇,其中以第一作者或通讯作者发表CCF A类论文100余篇,累计同行引用13000余次。
论坛讲者
操晓春
中山大学教授,网络空间安全学院院长
国家杰出青年青年科学基金获得者,主要从事计算机视觉基础研究和网络空间内容安全应用研究。担任TPAMI/TIP/TMM/电子学报/计算机科学的编委,NeurIPS/ICML/ICCV/CVPR/IJCAI/AAAI 的Area Chairs。兼任中国电子学会第十一届理事会理事、青年科学家俱乐部主席团成员。获2019年中共中央办公厅技术进步一等奖(排名第1)。中国计算机学会优博、中国电子学会优博、中国科学院大学优博指导导师。培养的研究生有4人入选国家级青年人才。
报告题目:可信人工智能
摘要:大部分计算机视觉算法的输入为连续或者稠密的图像数据,输出为人类可以理解的类别、位置、深度等离散或者稀疏语义空间。由于定义域和值域集合的基数不一致,这些计算机视觉算法不满足well-posed问题的第三个条件,是经典的ill-posed问题。纯数据驱动的计算机视觉算法是否既能具有对烟雨雾霾等复杂扰动的鲁棒性?又能避免的dedicated对抗扰动或者后门投毒? 可解释性与准确率是否不可兼得?是否存在裨益计算机视觉任务的正向扰动?我们团队正在探索的这些问题的答案,本报告将详细我们在该领域的最新进展。
张倬胜
上海交通大学长聘教轨助理教授、博导
研究大模型推理与安全,在顶级期刊和会议发表论文70余篇,谷歌学术引用4700次,GitHub获得12K星标。入选世界人工智能大会云帆奖、中国中文信息学会优博,AI华人百强学术新星。
报告题目:大模型智能体的行为安全探索
摘要:随着大模型的飞速发展,构建具备环境交互、规划决策和工具操控能力的自主智能体逐渐成为现实。现有研究在系统控制、科学研究、软件编程、群体协作等方面取得了显著进展。然而,这些智能体在为现实生活提供便利的同时,也带来了多样化的安全挑战。本报告将介绍大模型智能体的发展现状,聚焦 “用户-模型-环境”三方交互中所面临的安全风险,尤其是来自环境侧的新型攻击手段。结合最新研究,探讨智能体风险的根源及安全对齐策略。