为促进生成式人工智能技术健康发展和规范应用,国家网信办起草了《生成式人工智能服务管理办法(征求意见稿)》(以下简称“征求意见稿”),于4月11日向社会公开征求意见。“征求意见稿”指出国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。根据已知数据中挖掘并学习潜在的数据分布规律,从而实现对未来内容的预测与未知内容的自动生成,也是体现机器智能理解能力的重要手段之一。其在自动驾驶、机器人、金融投资和特效制作等领域有着重要的应用。然而,未知内容的不确定性和多选择性也给内容预测与生成带来了极大的挑战。为此,中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)广州分论坛学术委员会于4月15日举行 “大数据时代,如何实现可信的未知内容预测与生成”技术论坛。本次论坛属于YOCSEF广州ChatGPT论坛系列,邀请了来自交通、金融、电力等领域的相关专家和优秀青年教师,讨论预测生成学习在各类智能算法和产业创造中承担角色和未来趋势,并探讨如何实现大数据下的可信预测,如何让大数据下未知内容预测与生成算法满足“征求意见稿”的安全可信要求。
此次论坛由YOCSEF广州AC委员、中山大学计算机学院副教授胡建芳和YOCSEF广州候任委员、中山大学智能工程学院副教授沈颖共同担任执行主席。论坛特别邀请了中山大学智能工程学院由林麟副教授、暨南大学信息科学技术学院赖兆荣副教授、广汽研究院张天豫主任研究员作为引导发言嘉宾,中山大学智能工程学院金枝副教授、华南理工大学软件学院陈俊颖副教授、广东工业大学计算机学院朱鉴副院长作为思辨嘉宾。YOCSEF广州往届副主席吴维刚(中山大学)、高静(广东恒电信息科技股份有限公司),YOCSEF昆明候任副主席师智良,YOCSEF广州现任副主席谢光强(广东工业大学)、侯任副主席苏申(广州大学)、现任/候任AC委员及委员朱鉴(广东工业大学)、刘伟莉(广东技术师范大学)、黄培涛(广州唐邦信息科技有限公司)、吴国凯(荔峰科技(广州)有限公司)以及来自省内外多所高校及企事业的代表共30多人参加了此次论坛活动。
论坛首先由中山大学计算机学院副院长吴维刚教授代表承办单位致辞,并对参加此次特别论坛的嘉宾表示热烈的欢迎。吴维刚教授指出,随着数据规模的扩大以及人工智能的发展,内容预测与生成学习得到了更多关注,但是其可信度仍是一个挑战,对此次论坛围绕如何实现大数据下的可信预测的论坛充满期待。
图1 中山大学计算机学院副院长吴维刚教授代表承办单位致辞
在引导报告环节,首先由中山大学智能工程学院的由林麟副教授以“群体联邦计算与智慧交通个体行为预测研究”为题,指出随着信息通信技术的迅猛发展,以万物互联为目标的泛在物联网系统、以大数据为驱导的人工智能模型得到广泛应用,不断推动交通系统从被动智能向主动智慧转化。为了实现服务的自识别响应、系统的自组织运行,越来越多的智能网联设备将被接入,用以感知更细颗粒度的系统运行状态、用户个体行为数据。然而,面向新形势,以传统集中式计算为主的解决方案存在边缘端资源闲置、网络负载激增、中心云算力匮乏等技术难题,且无法有效应对恶意攻击对系统核心数据与用户隐私信息的窥探。因此,具备端边缘协同融合、数据隐私化处理的群体联邦计算技术得到广泛关注与讨论,并在智慧交通的各类应用中得到了初步的应用。林麟教授对交通系统的发展进行梳理,揭示集中式与联邦式计算的异同,诠释当前协同计算所面临的挑战,展示群体联邦计算在智慧交通中的应用成果,如:出行行为的精准预测与全局化引导、驾驶行为的协同感知与隐私化分析。
图2 中山大学由林麟副教授作引导报告
广汽研究院主任研究员张天豫以“预测学习在智能算法和产业创新中的角色与挑战”为题,从预测学习概念、应用、挑战以及未来的一些发展道路四个方面介绍了预测学习。预测学习以当前和过去的一些状态为输入,预测下一步或者下一个状态和事件,并没有固定的模式。张天豫将预测模型大概分为了四大类:自监督学习、生成模型、变分推断以及异常检测。预测学习的应用范围很广,包含天气预报、自动驾驶、轨迹预测等。但是其在数据质量、时间跨度方面还存在着挑战,这也导致训练的模型的泛化能力存在问题,地点或者时间的改变都会影响模型的准确率。张天豫也针对此问题提出了自己的想法,指出交叉验证或集成学习、加入噪声数据或对抗攻击、生成概率分布都将可能是解决的方法。预测学习还是需要构建一个大模型,如何构建也是未来必须要进一步研究的。另一方面,非平稳环境下的预测也是一大难点,环境具有不确定性和不稳定性,模型该如何适应环境的变化这一课题尚未得到解决。
图3 广汽研究院主任研究员张天豫作引导报告
最后由暨南大学信息科学技术学院的赖兆荣副教授以“基于凯利准则及指数增长率的资产配置机器学习方法”为题,从数学理论建模的角度研究怎样去利用未知时间序列的不确定性,使得自身的收益达到最大化。同时,他还详细说明了能够直接用于投资的机器学习方法是当今世界上各国金融管理部门以及各大基金公司、资产管理公司和金融科技公司的基础核心技术所在。资产配置是一种最基本和最普遍运用的投资架构,从技术路线来看可大致分为“均值——方差”模型和指数增长率模型,其中后者更贴近事实。并且还重点介绍了基于指数增长率模型的凯利准则及相关策略。
在引导报告之后,论坛进入思辨环节。与会嘉宾围绕“未知内容预测与生成,其不可信问题是否可‘解”、“保障预测与生成内容的可信性,关键在何处?”、“未知内容预测与生成,未来已来?”三个议题展开了深入思辨。
图4 暨南大学赖兆荣副教授作引导报告
思辨议题一:未知内容预测与生成,其不可信问题是否可“解”?
广东工业大学朱鉴认为,是否可解这个问题取决于所预测未知内容的复杂程度。通过讨论自由市场的可预测性和数据预测与生成的不可靠性问题,他指出,现实世界的复杂性使得完全可解是不可能的,最多只能缓解问题。谈到衍生子议题,朱鉴教授的看法是,首先,数据存在噪声,如果大到影响数据的真实性,会造成数据本身是不可信的,进而使得所生成的模型存在极大的不可信。其次,神经网络的不可解释性、模型的设计好坏以及过拟合的问题,也都会影响模型的可靠性,成为不可信的因素。
暨南大学信息科学技术学院赖兆荣教授认为,从金融预测领域看,金融市场存在诸多不可信的交易信息。此外,突发事件例如战争或经济危机,也会给市场的预测带来极大的不确定性。因此,赖教授强调善用数学工具进行概率平衡的策略,通过列举使用数学模型进行金融避险的实例,进一步阐明了未知内容预测的可解性。
图5 议题一思辨
广汽研究院主任研究员张天豫指出,在宏观和微观角度有大量的事实可证明,未来世界是不可确定的,提出一个逆向思考的问题,即我们是否有必要关注生成的内容到底是真还是假?即便生成的内容是与当前不符,也可能是一个低概率的状态,而难以讨论其是否可信。因此,张天豫认为这些模型应作为避险工具来参考,而无需关心它到底真假,重要的是关注预测模型的概率。
YOCSEF昆明候任副主席师智良认为,已知内容训练的模型和样本,对于未知内容无法收敛,因此无法做出可信预测。可信的预测和生成应该是针对已知内容或者已知领域的内容预测和生成。他认为,要做到可信的预测和生成,需要从源头开始考虑,选择真实可信的数据源、预处理数据、使用可管控的预测模型和算法等等。缺少类似流程,输出结果的可信度难以保证。
广州唐邦信息科技有限公司黄培涛引入时间维度看待这个议题,提到了缩小信息的时间维度,或许能够增加信息的可信度。他指出,可信度不是一个绝对值,而可以是相对的值,并且探讨了提高信息可信度的可能途径。最终他总结道