CCF YOCSEF西安举办“矛与盾的对话:共筑大模型安全防火墙”技术论坛,共探大模型攻防平衡范式
2025年初,全球首例利用ChatGPT策划的恐怖袭击事件震惊世界,引发国际社会对人工智能安全问题的持续关注。针对这一热点问题,CCF YOCSEF西安于2025年4月27日在西安曲江惠宾苑宾馆举办“矛与盾的对话:共筑大模型安全防火墙”技术论坛。本次论坛由CCF YOCSEF西安AC委员崔禾磊和CCF YOCSEF西安副主席童小敏共同担任执行主席,邀请了来自香港城市大学、浙江大学、南京信息工程大学、中科院信工所、西安交通大学等国内著名高校和科研院所的专家学者,以及来自阿里云、华为、深信服、汇丰科技、四叶草安全等企业嘉宾齐聚一堂,共同就大模型安全攻防这一主题展开探讨和思辨。
【引导发言引领前沿视角技术发展启迪模型攻防】
在引导发言环节,国家级青年人才、青橙奖获得者、西安交通大学蔺琛皓教授首先作了题为“AI大模型的安全可信——从小模型到大模型到具身智能”的报告。蔺琛皓指出,随着人工智能的飞速发展,人工智能技术引发了各类安全事件,可信可控的人工智能是大家共同的愿景。为实现安全可信的AI大模型,琛皓从机密性、完整性和可用性三个方面出发,提出针对性的解决方案,分别对应隐私泄露、产权侵犯、对抗攻防、后门操纵、内容可鉴可信和效用公平等问题。琛皓建议从小模型出发,构建安全可信大模型,最终构造可信可控的具身智能体。
图2 西安交通大学蔺琛皓作引导发言
接着,阿里云安全解决方案架构师、西区负责人张俊杰作了题为“大模型场景遇到的安全风险及应对方案”的报告,从大模型使用与运营方的角度阐述了大模型在基础设施层、模型层和应用层三个层面所面临的安全风险与挑战。针对大模型业务云上安全风险,张俊杰提出了十大场景以及对应的防护方案,在一定程度上解决了包括业务不可用、数据安全、外部攻击、安全运维等风险问题,实现了特定场景下的大模型安全防御。
图3 阿里云安全张俊杰作引导发言
浙江大学博士后刘建伟作了题为“物极必反——大模型如何应对物理世界安全挑战”的报告,从物理攻击的角度阐述了大模型存在的安全风险。他提到,大模型复杂的决策边界和多样化的输入可能导致其更容易受到攻击;由于物理世界的开放性,当大模型与物理世界交互时,容易被攻击者乘虚而入,产生安全威胁。对此,建伟从物理层信号注入、构建恶意数据集、捕捉侧信道电磁泄漏几个方面阐述了物理层能够对大模型展开的对抗攻击、后门攻击和隐私泄露攻击,为大模型攻防提供了新的角度和思考。