CNCC|AI时代下,数据库的再进化之路
CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办,今年CNCC技术论坛数量达到122个,内容涵盖了“计算+行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月9日举办的【AI+DB:智能数据库系统前沿进展与应用】技术论坛。
报名及了解更多技术论坛信息请识别下图二维码进入CNCC2022官网。目前早鸟票限时优惠报名正在进行,抓住机会立享大幅优惠!

智能数据库技术(AI+DB)是现今数据库领域的研究热点,也被公认为下一代数据库的核心技术,受到了广泛关注。近年来,学术界和工业界对于AI+DB技术都进行了深入研究,在该方向积累了大量成果。
当前,AI+DB在理论算法和系统应用中仍存在一系列问题和挑战,主要围绕在两方面:一方面,面对纷繁复杂的数据库任务,如何设计AI模型能够准确、可靠的提升数据库性能;另一方面,针对数据库系统特点,如何将AI模型部署进入DB系统,取得实用的落地成果。这些问题的研究,直接关乎AI+DB的应用前景和发展方向。
本论坛围绕这一主题,邀请学术界和工业界的代表人物,从不同角度剖析AI+DB技术的现状和发展,机遇与挑战。报告内容涵盖AI+DB的核心方向,包括数据的准备、转换、管理,查询优化技术、参数估计方法等内容,从算法和系统两个层面剖析该方向的前沿进展、主要挑战和未来探索方向。
论坛安排
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 人工智能增强的数据管理:问题与探索 | 王宏志 | 哈尔滨工业大学 |
2 | 基于采样的NDV估计:理论、算法与可扩展性 | 魏哲巍 | 中国人民大学 |
3 | 学习型查询优化技术:挑战、进展和应用 | 朱鎔 | 阿里巴巴 |
4 | 面向以数据为中心的AI时代的机器学习系统 | 张策 | 苏黎世联邦理工学院 |
5 | ConnectorX: 架设在Database和Dataframe之间的高速公路 | 王健楠 | 西蒙弗雷泽大学 |
6 | 面向人工智能的数据准备 | 柴成亮 | 清华大学 |
论坛主席
李国良
CCF数据库专业委员会副主任
清华大学计算机系 副主任/教授
CCF杰出会员,主要研究数据库、大数据挖掘与分析。在数据库顶级会议和期刊上发表论文150余篇,他引12000余次。主持国家杰青、优青、青年973、重点等项目。获得了VLDB杰出青年贡献奖 、IEEE数据工程领域杰出新人奖、2014年CCF青年科学家奖等奖项。获得过Best of VLDB 2020/ICDE 2018/KDD 2018, CIKM 2017 Best Paper。获得过国家科技进步二等奖、江苏省科技进步一等奖、国家电网科技进步一等奖等奖项。
论坛共同主席
丁博麟
阿里巴巴达摩院智能计算实验室 资深技术专家
于中国人民大学完成数学与应用数学本科学习,后前往香港中文大学和美国伊利诺伊大学香槟分校,分别获得系统工程硕士和计算机科学博士。研究方向包括:数据隐私保护,智能系统(AI4AI,AI4DB,AI4Econ),机器学习算法理论及应用。188体育app官网:4月加入阿里巴巴。之前就职于美国微软研究院任研究员。项目成果被授予十余项美国技术专利,多项成果直接应用于业界重要软件和服务。研究成果发表于SIGMOD,VLDB,ICDE,KDD,NIPS,ICML,ICLR,CHI等多个领域的顶尖国际会议。
报告及讲者介绍
王宏志
CCF哈尔滨分部主席
哈尔滨工业大学 计算学部教授/英才学院副院长
CCF杰出会员,研究方向为大数据治理、大数据管理与分析、数据库系统、工业大数据等。在VLDB, SIGMOD等国内外重要会议和期刊发表学术论文300余篇,出版学术专著三本,其论文被SCI收录90余次,他引3500余次,授权发明专利30项。获得微软学者、中国优秀数据库工程师、IBM博士英才等称号,获得黑龙江省自然科学一等奖和教育部高等学校科技进步一等奖各一项,获黑龙江省青年科技奖、宝钢优秀教师奖、CSC-IBM奖教金。
报告题目:人工智能增强的数据管理:问题与探索
当前数据规模增大、类型多样、应用复杂,数据管理的难度也日益增大,这为数据库管理系统的设计、运维和调优带来了巨大的挑战,在很多场景下人工完成这些工作几乎成为不可能的任务。幸运的是,人工智能技术的发展为数据管理提供了新的机遇,通过人工智能技术增强数据库管理系统可以实现数据管理的自主化。但是人工智能更增强的数据管理对数据库系统和人工智能技术都带来了一系列新的挑战。本报告将对人工智能增强数据管理的背景和挑战进行介绍,继而介绍在利用人工智能技术增强数据库管理技术中的探索,最后加以总结,展望未来的工作。
魏哲巍
中国人民大学 教授
研究方向为大数据算法理论、图机器学习。2008年本科毕业于北京大学,2012年博士毕业于香港科技大学,2012年至2014年于奥胡斯大学海量数据算法研究中心担任博士后研究员,2014年加入中国人民大学信息学院。在数据库、理论计算机、数据挖掘、机器学习等领域的顶级会议及期刊上发表论文50余篇,并获得数据库理论顶级会议PODS 2022十年最佳论文奖。担任PODS、ICDT等会议论文集主席以及VLDB、KDD、ICDE、ICML、NeurIPS等国际会议程序委员会委员。主持多项自然科学基金青年项目、面上项目及重点项目子课题。
报告题目:基于采样的NDV估计:理论、算法与可扩展性
近年来,随着人工智能的飞速发展,数据库与人工智能的交叉技术逐渐成为数据库研究领域的重要方向之一。估计数据库中不同元素个数(Number of Distinct Values,NDV)是数据库领域最基础的问题之一。NDV的估计值能够应用于改进查询优化、数据压缩等问题中。随着数据规模的增加,基于扫描估计NDV的方法难以应对更大的数据,基于采样的NDV估计方法越来越受到重视。本报告拟先介绍NDV估计相关任务和一些前沿应用,然后分析利用采样估计NDV过程中面临的关键问题和挑战,介绍利用神经网络提升基于采样的NDV估计方法效率的最新理论算法和模型,最后将讨论我们在基于采样的NDV估计的可扩展性方面所做的一些工作和对未来的展望。
朱鎔
阿里巴巴达摩院智能计算实验室 技术专家
研究领域包括数据库、大数据、数据挖掘、机器学习等。在CCF A类会议和期刊发表论文20余篇,包括VLDB Journal,VLDB、TKDE、ICDE、ICLR等。担任多个国际会议与期刊如VLDB、KDD、TKDD、CIKM、SDM的PC Member或审稿人。获得过2019教育部自然科学奖二等奖,2020 CCF优秀博士论文提名奖。
报告题目:学习型查询优化技术:挑战、进展和应用
查询优化是数据库的核心技术。基于ML的查询优化技术也是目前AI4DB领域的研究热点和重点。查询优化技术涵盖了基数估计、代价模型、连接选择等问题,为ML模型的应用和发展,提供了丰富的场景。然而,当前的ML模型,仍然面临着训练代价高、部署难度大、稳定性和精度不足等问题。本报告系统介绍本团队在学习型查询优化技术方面的成果,涵盖理论算法和系统应用两方面,包括了一系列数据驱动的基数估计新算法、学习型基数估计的benchmark、新型的端到端查询优化器设计以及通用的查询优化模型部署工具。
张策
苏黎世联邦理工学院(ETH Zurich)计算机科学系 助理教授
研究方向包括以系统的方法推进高质、高效、可信的人工智能技术在社会方方面面中的广泛应用。目前的研究重点是构建以数据为中心、以人为中心的大规模机器学习平台和系统。加入 ETH Zurich 之前,张策在威斯康星大学麦迪逊分校完成了博士学位,并在斯坦福大学担任了一年的博士后研究员。曾获得SIGMOD最佳论文奖、SIGMOD Research Highlight Award、Google Focused Research Award、ERC Grant,并被Science、Nature、Communications of ACM、Atlantic以及其他媒体杂志报道。
报告题目:面向以数据为中心的AI时代的机器学习系统
机器学习(ML)系统的最新进展使许多人训练自己的ML/AI模型变得非常简单。然而,这并不意味着ML开发人员的工作变得更容易。由于ML以数据为中心的性质:ML的质量通常反映了底层数据的质量,使得很多人仍在为构建高质量和可信的ML而努力。因此,下一代ML平台必须通过对底层数据的理解、细化和清洗,构建出质量更高,可信度更好,法规遵从性更好的系统。这一任务具有很高的挑战性,他要求我们整体看待数据质量、数据管理和ML。本报告将讨论我们在这一领域的一些想法和技术成果以及未来ML系统研究的愿景。
王健楠
西蒙弗雷泽大学 副教授
2013年在清华大学获得博士学位,并于2013年至2015年在加州大学伯克利分校AMPLab进行博士后研究。曾获2020年加拿大计算机协会授予的杰出青年奖,188体育app官网:IEEE授予的数据工程新星奖,2021 VLDB EA&B最佳论文奖,2016年ACM SIGMOD最佳演示奖,2013年CCF最佳博士论文奖,2011年Google PhD Fellowship。
报告题目:ConnectorX: 架设在Database和Dataframe之间的高速公路
企业的很多数据都存储在数据库中,为了充分挖掘出数据的价值,传统的SQL分析是不够的,需要借助AI的力量。然而AI开发者更愿意使用Dataframe 库(如:Pandas,Dask,Modin)来分析处理数据,这就需要把数据库里的数据加载到Dataframe系统里。我们发现这一步常常花费大量的时间,甚至会成为整个AI Pipeline的瓶颈。为了解决这个问题,本次讲座将介绍ConnectorX:采用新颖的架构和技术来优化数据加载性能。与著名的Dataframe开源软件Pandas相比,ConnectorX可以将其数据加载速度提高13倍,内存需求量降低3倍。我们希望把ConnectorX开发成Database和Dataframe之间的高速公路,高效连接SQL生态和Python生态,打破DB和AI的壁垒。
柴成亮
清华大学 博士后
研究领域:数据库、数据挖掘、数据准备等。在CCF A类会议和期刊发表论文30余篇,包括SIGMOD、VLDB、ICDE等。担任多个国际会议与期刊如VLDB、ICDE、KDD、AAAI的审稿人。获得过2020 CCF优秀博士论文奖、ACM中国优博等奖项。主持博新计划、国自然青年基金和博士后面上基金等。
报告题目:面向人工智能的数据准备
数据是构建机器学习模型的核心要素——如果没有正确的数据,人工智能系统不仅会面临错误风险,而且会因偏置等问题给社会带来危险。因此,数据准备技术,即如何系统地解决数据质量、数据偏差、数据标注等难题,正在成为人工智能的关键基础能力之一。尽管其中的一些问题(如数据集成、数据清洗等)是数据管理领域长期以来的研究热点,人工智能的独特场景带来了一系列全新的挑战。围绕这些挑战,近年来数据管理与机器学习领域进行了深入的研究。本报告聚焦面向人工智能的数据准备技术进行分享。首先是介绍面向人工智能的数据准备基本问题与关键挑战;其次是梳理现有的研究工作,并介绍一些关键性的进展,包括面向机器学习的数据发现、成本高效的数据集成/清洗、人机混合的数据标注等;最后是对一些尚待解决的问题与研究挑战进行探讨。
CNCC是级别高、规模大的高端学术会议,探讨计算及信息科学技术领域最新进展和宏观发展趋势,展示计算领域学术界、企业界最重要的学术、技术成果,搭建交流平台,促进科技成果转换,是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra,以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士及专家,还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家,CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是:算力、数据、生态。
CNCC2022将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动,让参会者畅快交流,燃爆全场。如此盛会,岂能缺席!等你来,马上行动,欢迎参会报名!