您的位置：首页 > 新闻 > CCF新闻 > 工作委员会 > 计算机术语审定委员会

联手数据库专委：“近似查询处理”与“数据集市”术语发布 | CCF术语快线

阅读量:32 2021-08-06 收藏本文

此文收录于CCF计算机术语审定委员会的术语快线话题，本期联合数据库专业委员会推出行业术语热词与新词介绍。

开篇导语：

此文收录于CCF计算机术语审定委员会的术语快线话题，本期联合数据库专业委员会推出行业术语热词与新词介绍。

本期所选术语热词为：近似查询处理(Approximate Query Processing)。针对在线联机分析处理任务给出近似计算结果，进而支持在线交互式数据分析应用。

除此之外，本期新增术语新词：数据集市(Data Market)。作为一种新的数据经济形式和数据共享方式，数据集市使政府或企业能够以新的方式访问数据，推动了数据经济的发展，让数据创造更多价值。

作者：柴成亮（清华大学）、李国良（清华大学）

近似查询处理(Approximate Query Processing)

InfoBox

中文名：近似查询处理

外文名：Approximate Query Processing

简称：AQP

学科：数据库系统

实质：利用离线概要、在线采样或机器学习模型近似回答大数据聚合查询

基本简介：

近似查询处理使用离线概要(Synopsis)、在线采样或机器学习模型来表达原数据集的关键统计信息、样本或概率密度分布函数，以针对在线联机分析处理任务给出近似计算结果，进而支持在线交互式数据分析应用。

背景与动机：

数据库系统是现代信息技术中的一项核心基础软件，各种上层高级应用的性能都依赖于数据库系统的查询处理能力。联机分析处理(Online Analytical Processing，简称 OLAP)是数据库系统中的一项重要功能^[1]。处理OLAP查询的能力是许多决策支持系统中的重要指标。相对于联机事务处理(Online Transaction Processing，简称 OLTP)，OLAP更多地关注于帮助用户迅速地、多维度地分析数据并理解数据，从而支持更高层次的决策。

在实践中，在大型数据集上支持OLAP操作的计算代价十分巨大。尽管许多成熟的商用系统已能支持大数据上的OLAP（例如Spark^[2]），但这些系统通常需要数十分钟甚至几小时才能完成一个复杂的OLAP查询。然而，在许多具有在线OLAP需求的应用场景下都要求在几秒钟内获得OLAP结果。为了解决此问题，数据库研究者们提出了大数据近似查询处理（Approximate Query Processing，简称 AQP）技术，此类方法可以非常快速地计算OLAP查询的近似答案且可以提供一定的精度保证^[3]。

中文语境下广义的“近似查询处理”覆盖范围较为广泛，而数据库系统相关的研究中所指的近似查询处理（即AQP问题）特指数据库（包含但不仅限于关系型数据库）上聚合查询结果的近似估计^[4,5]。近似查询处理主要支持包含聚合函数的SQL语句，此处所指的聚合函数主要为SUM、AVG、COUNT、MAX、MIN或上述几种函数的复合。

研究概况：近似查询处理这一领域的研究历程总体可分为两个阶段：（1）在关系型数据库上使用采样技术在1986年首次被提出并实现^[6]。此后，在随机采样的基础上，分层抽样和各种离线构建数据概要的方法被广泛研究。在分布式系统被提出后，研究者们则关注于如何在分布式场景下离线或在线采样；（2）在深度学习技术推动的AI浪潮下，研究者逐渐意识到机器学习模型对于数据的强大拟合能力，大量基于生成模型的AQP算法在这种背景下被提出。因此，现行的AQP算法主要包含在线算法、离线算法与机器学习算法三种。

在线AQP算法的主要目的是在查询执行期间设计合理的采样策略，基于在线采样计算OLAP的近似查询结果，并为此近似查询结果设计误差估计算法^[7]。

离线AQP算法主要通过分析历史查询日志和原数据集，对数据总体进行采样或计算其关键统计信息，并用这些信息近似回答在线查询^[8,9,10]。

机器学习驱动的AQP算法主要关注于使用生成模型表达原数据集的概率密度分布，利用所得的概率密度函数近似估计查询结果^{[11,12,13,14]}。

大数据近似查询处理下一阶段的研究任务将关注于：（1）为大规模数据集设计泛化能力更强的数据分布表达模型；（2）将现有的AQP技术在商用数据库上实现落地；（3）使用AQP技术支持更加广泛的上层应用^[15,16]。

参考文献：

[1] Chaudhuri, Surajit, and Umeshwar Dayal. "Data warehousing and OLAP for decision support." In Proceedings of the 1997 ACM SIGMOD international conference on Management of Data, pp. 507-508. 1997.

[2] Armbrust, Michael, Reynold S. Xin, Cheng Lian, Yin Huai, Davies Liu, Joseph K. Bradley, Xiangrui Meng et al. "Spark sql: Relational data processing in spark." In Proceedings of the 2015 ACM SIGMOD international conference on management of data, pp. 1383-1394. 2015.

[3] Li, Kaiyu, and Guoliang Li. "Approximate query processing: What is new and where to go?." Data Science and Engineering 3, no. 4 (2018): 379-397.

[4] Chaudhuri, Surajit, Bolin Ding, and Srikanth Kandula. "Approximate query processing: No silver bullet." In Proceedings of the 2017 ACM International Conference on Management of Data, pp. 511-519. 2017.

[5] Mozafari, Barzan. "Approximate query engines: Commercial challenges and research opportunities." In Proceedings of the 2017 ACM International Conference on Management of Data, pp. 521-524. 2017.

[6] Olken, Frank, and Doron Rotem. "Simple random sampling from relational databases." (1986).

[7] Li, Feifei, Bin Wu, Ke Yi, and Zhuoyue Zhao. "Wander join: Online aggregation via random walks." In Proceedings of the 2016 International Conference on Management of Data, pp. 615-629. 2016.

[8] Agarwal, Sameer, Barzan Mozafari, Aurojit Panda, Henry Milner, Samuel Madden, and Ion Stoica. "BlinkDB: queries with bounded errors and bounded response times on very large data." In Proceedings of the 8th ACM European Conference on Computer Systems, pp. 29-42. 2013.

[9] Cormode, Graham, Minos Garofalakis, Peter J. Haas, and Chris Jermaine. "Synopses for massive data: Samples, histograms, wavelets, sketches." Foundations and Trends in Databases 4, no. 1–3 (2012): 1-294.

[10] Li, Kaiyu, Yong Zhang, Guoliang Li, Wenbo Tao, and Ying Yan. "Bounded approximate query processing." IEEE Transactions on Knowledge and Data Engineering 31, no. 12 (2018): 2262-2276.

[11] Ma, Qingzhi, and Peter Triantafillou. "Dbest: Revisiting approximate query processing engines with machine learning models." In Proceedings of the 2019 International Conference on Management of Data, pp. 1553-1570. 2019.

[12] Thirumuruganathan, Saravanan, Shohedul Hasan, Nick Koudas, and Gautam Das. "Approximate query processing for data exploration using deep generative models." In 2020 IEEE 36th International Conference on Data Engineering (ICDE), pp. 1309-1320. IEEE, 2020.

[13] Ma, Qingzhi, Ali Mohammadi Shanghooshabad, Mehrdad Almasi, Meghdad Kurmanji, and Peter Triantafillou. "Learned Approximate Query Processing: Make it Light, Accurate and Fast." In CIDR. 2021.

[14] Hilprecht, Benjamin, Andreas Schmidt, Moritz Kulessa, Alejandro Molina, Kristian Kersting, and Carsten Binnig. "Deepdb: Learn from data, not from queries!." arXiv preprint arXiv:1909.00607 (2019).

[15] Ta, Na, Kaiyu Li, Yi Yang, Fang Jiao, Zheng Tang, and Guoliang Li. "Evaluating public anxiety for topic-based communities in social networks." IEEE Transactions on Knowledge and Data Engineering (2020).

[16] Wang, Lu, Robert Christensen, Feifei Li, and Ke Yi. "Spatial online sampling and aggregation." Proceedings of the VLDB Endowment 9, no. 3 (2015): 84-95.

数据集市(Data Market)

InfoBox

中文名：数据集市

外文名：Data Market

学科：数据科学，金融学

实质：一种新的数据经济形式和数据共享方式

基本简介：

随着数据量持续激增，人工智能在决策中变得越来越重要，许多企业寻求使用外部数据来扩充或丰富内部数据集。因此，基于云的数据集市正以越来越快的速度出现，以将数据消费者与合适的数据销售商相匹配^[1,2]。具体地，数据集市将帮助数据消费者减少定位和检索所需数据集的成本，并帮助数据销售商扩大其市场覆盖范围^[3,4]。

核心问题：数据集市中需要解决的核心问题主要有：（1）数据收集，可通过众包、自助数据提供方式，为数据集市提供多元化的数据^[5,6]；（2）数据交换的激励措施，数据收集者、用户和数据所有者可以为数据市场提供数据存储服务，通过存储数据来获得收益，此外，收集者可以出售这些数据获得收益，而用户可以使用这些数据来支持自己的数据分析业务^[7,8]；（3）标准化，数据集市需要通用的数据模型和接口，为买卖双方提供结构化的方式来交换数据^[8]；（4）定价公平，数据集市允许提供者或数据所有者设定自己的价格，同时也允许消费者选择从谁那里购买^[3.9,10]；（5）隐私安全，数据集市要保证数据传输的可靠性，设置防抵赖，防篡改的功能^[9]。

现有数据集市及其发展趋势：数据集市使政府或企业能够以新的方式访问数据，推动了数据经济的发展，让数据创造更多价值。一方面，通过数据交易可以直接获得收益，其中收益不必是金钱，还可以是数据或数据分析结果。另一方面，数据集市可以将数据管理中的一些任务外包给专门从事组装和管理数据集或以其他方式从数据中创造价值的第三方^[11]。现有规模较大的数据集市如下表所示，其中第二列表示该数据集市是否支持异构数据的买卖；第三列表示集市是否存在元数据描述；最后一列表示该集市是否存在索引。根据Expert Market Research的数据，2020年全球大数据集市规模达到2080亿美元，预计将以10%的稳定复合年增长率增长，到2026年将达到4500亿美元。新的数据经济正在形成，数据可以以更简单、更实惠的方式创建、访问、租用和永久维护^[12]。

参考文献：

[1] https://www.snowflake.com

[2] Balazinska M, Howe B, Suciu D. Data markets in the cloud: An opportunity for the database community[J]. Proceedings of the VLDB Endowment, 2011, 4(12): 1482-1485.

[3] Chen L, Koutris P, Kumar A. Towards model-based pricing for machine learning in a data marketplace[C]//Proceedings of the 2019 International Conference on Management of Data. 2019: 1535-1552.

[4] https://whatis.techtarget.com

[5] Fan W, Li J, Ma S, et al. Towards certain fixes with editing rules and master data[J]. The VLDB journal, 2012, 21(2): 213-238.

[6] Chu X, Morcos J, Ilyas I F, et al. Katara: A data cleaning system powered by knowledge bases and crowdsourcing[C]//Proceedings of the 2015 ACM SIGMOD international conference on management of data. 2015: 1247-1261.

[7] https://www.indicative.com

[8] Fernandez R C, Subramaniam P, Franklin M J. Data market platforms: Trading data assets to solve data problems[J]. arXiv preprint arXiv:2002.01047, 2020.

[9] Pei J. Data Pricing--From Economics to Data Science[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3553-3554.

[10] Koutris P, Upadhyaya P, Balazinska M, et al. Query-based data pricing[J]. Journal of the ACM (JACM), 2015, 62(5): 1-44.

[11] https://techcrunch.com

[12] https://www.datamation.com

术语工委及术语平台介绍：

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词，并在CCF平台上宣传推广。这对厘清学科体系，开展科学研究，并将科学和知识在全社会广泛传播，都具有十分重要的意义。

术语众包平台CCFpedia的建设和持续优化，可以有效推进中国计算机术语的收集、审定、规范和传播工作，同时又能起到各领域规范化标准定制的推广作用。

新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合，摒弃老版中跨平台操作的繁琐步骤，在界面可观性上进行了升级，让用户能够简单方便地查阅术语信息。同时，新版平台中引入188体育app官网：的方式对所有术语数据进行组织，通过图谱多层关联的形式升级了术语浏览的应用形态。