188体育app官网_188体育投注

返回首页

联手数据库专委:“数据科学”与“自治数据库”术语发布

阅读量:31 2021-07-23 收藏本文

此文收录于CCF计算机术语审定委员会的术语快线话题,本期联合数据库专业委员会推出行业术语热词与新词介绍。


开篇导语:


本期所选术语热词为:数据科学(Data Science)。随着大数据时代的到来,数据科学成为当今许多行业的重要组成部分。


除此之外,本期新增术语新词:自治数据库(Autonomous Database)。随着越来越多的学习型数据库算法被提出并应用到数据库系统中,设计一款原生基于机器学习实现自优化、自管理、自监控、自诊断、自恢复的数据库系统已经成为可能。


数据科学(Data Science)


InfoBox:

中文名:数据科学

外文名:Data Science

学科:跨学科研究领域

实质:数据全生命周期的相关技术和方法


基本简介:

数据科学通过融合多学科交叉技术(包含统计学、数据分析、机器学习等)实现从数据中发现有价值的信息或规律。数据科学不同于计算机科学和信息科学,数据科学是一个跨学科领域,利用来自数学、统计学、计算机科学、信息科学等许多领域的技术和理论,在结构化和非结构化数据中探索数据潜在的模式[1][2]从中提取知识和分析结果[3],并将数据中的知识和分析结果广泛应用到各个领域[4][5]


数据科学研究领域主要包括数据准备(数据采集、数据输入、数据提取),数据管护(数据清理、数据存储、数据管理),数据处理(数据挖掘、数据建模、数据汇总),数据分析(预测性分析、回归、文本挖掘、定性分析),数据分析结果使用(数据可视化、商业智能、决策)等。随着大数据时代的到来,数据科学成为当今许多行业的重要组成部分。


发展历程:

1962年,John Tukey首次提出了“数据分析”的概念[6],这是现代数据科学的雏形。1985年,C.F. Jeff Wu首次使用术语“数据科学”[7]。直到1992年,蒙彼利埃第二大学统计学研讨会的与会者承认,出现了一个新学科,该学科专注于各种来源和形式的数据,将统计学的既定概念和原则与计算相结合。1998年,Hayashi Chikio指出数据科学是一个新的、跨学科的概念,包括数据设计、收集和分析等[8]。2008年,图灵奖获得者Jim Gray提出了科学研究的第四范式:数据密集型的科学发现(Data-Intensive Scientific Discovery),推动了数据科学的发展[9]


应用领域:

数据科学是当今行业中争论最多的话题之一,它的受欢迎程度不断提高,众多公司已经开始实施数据科学技术来发展业务,提高客户满意度以及为高层决策提供支持。例如,在商场通过收集和分析用户购买数据,发现客户感兴趣的商品,识别市场中的新兴趋势,灵活调整销售策略;互联网公司通过对用户行为数据进行分析,为用户精准推送广告,提高广告投放的有效率;风险分析师通过大数据分析来发现业务中可能存在的风险,为领导层提供有价值的见解并推动业务决策;疾控中心可以通过融合不同来源的数据进行分析,绘制流感实时地图,预测流感的传播趋势;通过数据分析,制药厂可以分析几种药物组合及其对不同基因结构的影响,预测药物效果帮助进行药物开发,提高发现新药物的成功率;导航软件可以通过分析实时路况数据,为用户规划最优行驶路线,提高通行效率;政府可以通过分析辖区数据,对犯罪率进行分析和预测,灵活调配警力[9][10]


参考文献:

[1] Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.
[2] Leek J. The key word in ‘data science’is not data, it is science[J]. Simply statistics, 2013, 12.
[3] Hayashi C. What is data science? Fundamental concepts and a heuristic example[M]//Data science, classification, and related methods. Springer, Tokyo, 1998: 40-51.
[4] Bell G, Hey T, Szalay A. Beyond the data deluge[J]. Science, 2009, 323(5919): 1297-1298.
[5] Hammerbacher J, Segaran T. Information platforms and the rise of the data scientist[J]. Beautiful data: the stories behind elegant data solutions, 2009: 73-84.
[6] Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.
[7] Wu, C. F. Jeff (1986). "Future directions of statistical research in China: a historical perspective" (PDF). Application of Statistics and Management. 1: 1–7. Retrieved 29 November 2020.
[8] Murtagh F, Devlin K. The development of data science: implications for education, employment, research, and the data revolution for sustainable development[J]. Big Data and Cognitive Computing, 2018, 2(2): 14.
[9]https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/
[10] https://builtin.com/data-science/data-science-applications-examples
[11] https://www.alteryx.com/

自治数据库(Autonomous Database)


InfoBox:

中文名:自治数据库

外文名:Autonomous database

学科:数据库系统

实质:利用人工智能手段实现自治数据库系统



基础定义:

自治数据库利用机器学习技术和经验规则,实现数据库的自优化、自管理、自监控、自诊断、自恢复等在内的多维度的自治功能。


发展历程:

数据库是信息技术领域的核心基础软件,基本上各种信息系统都要借助于数据库系统来组织、存储、操纵和管理业务数据。


20世纪60年代,数据库开始出现。60多年来,数据库得到了蓬勃发展,其中关系数据库最为流行[1,2],广泛应用于各个领域。随着云时代的到来,云数据库得到了蓬勃发展。但是云数据库带来的一大挑战就是如何在云平台上支持百万级的数据库实例、千万级的数据库用户?传统的数据库通过数据库管理员来实现数据库的调优和运维管理,但是这种方法需要大量的人力,显然不适合具有海量用户和数据库实例的云数据库。


近年来,随着AI(人工智能)技术的发展,学术界和工业界开始探索利用人工智能方法解决数据库管理、优化、运维等问题[3],因此自治数据库应运而生。


自治功能:

自优化:包括数据库内核的智能优化(包括智能查询优化器[4]、智能代价估计[5]、智能计划选择[6])以及智能的索引推荐[7]、视图推荐[8、9]。内核智能优化包括基于强化学习的连接顺序选择器[10]、基于深度神经网络的代价估计器[5],以及智能查询重写器[11]等。智能索引和视图推荐主要根据用户提交的查询来自动推荐索引和视图。


自管理:主要是根据历史数据智能推荐参数配置。


自监控:根据数据库运行过程中的各项指标(例如 CPU 使用率、响应时间、运行日志),监控数据库运行状态,并可以通过强化学习等人工智能技术,调整系统参数,提升数据库整体性能[12]


自诊断:主要根据数据库性能表现以及运行指标,抽取特征,利用人工智能技术发现数据库系统异常的根本原因[13](例如锁冲突、网络异常等),并提供解决数据库故障的决策手段。


自恢复:主要是利用历史诊断手段来自动避免错误和问题,自动恢复数据库。


随着越来越多的学习型数据库算法被提出并应用到数据库系统中。设计一款原生基于机器学习实现自优化、自管理、自监控、自诊断、自恢复的自治数据库系统已经成为可能。


参考文献

[1] Codd E F. A relational model of data for large shared data banks[M]//Software pioneers. Springer, Berlin, Heidelberg, 2002: 263-294.
[2] Huang D, Liu Q, Cui Q, et al. TiDB: a Raft-based HTAP database[J]. Proceedings of the VLDB Endowment, 2020, 13(12): 3072-3084.
[3] Li G, Zhou X, Li S. XuanYuan: An AI-Native Database[J]. IEEE Data Eng. Bull., 2019, 42(2): 70-81.
[4] Marcus R, Negi P, Mao H, et al. Neo: A Learned Query Optimizer[J]. Proceedings of the VLDB Endowment, 12(11).
[5] Sun J, Li G. An End-to-End Learning-based Cost Estimator[J]. Proceedings of the VLDB Endowment, 13(3).
[6] Marcus R, Negi P, Mao H, et al. Bao: Making learned query optimization practical[C]//Proceedings of the 2021 International Conference on Management of Data. 2021: 1275-1288.
[7] Ding B, Das S, Marcus R, et al. Ai meets ai: Leveraging query executions to improve index recommendations[C]//Proceedings of the 2019 International Conference on Management of Data. 2019: 1241-1258.
[8] Yuan H, Li G, Feng L, et al. Automatic view generation with deep learning and reinforcement learning[C]//2020 IEEE 36th International Conference on Data Engineering (ICDE). IEEE, 2020: 1501-1512.
[9] Han Y, Li G, Yuan H, et al. An autonomous materialized view management system with deep reinforcement learning[C]//2021 IEEE 37th International Conference on Data Engineering (ICDE). IEEE, 2021: 2159-2164.
[10]Yu X, Li G, Chai C, et al. Reinforcement learning with tree-lstm for join order selection[C]//2020 IEEE 36th International Conference on Data Engineering (ICDE). IEEE, 2020: 1297-1308.
[11]Zhou Q, Arulraj J, Navathe S, et al. SIA: Optimizing Queries using Learned Predicates[C]//Proceedings of the 2021 International Conference on Management of Data. 2021: 2169-2181.
[12]Li G, Zhou X, Li S, et al. Qtune: A query-aware database tuning system with deep reinforcement learning[J]. Proceedings of the VLDB Endowment, 2019, 12(12): 2118-2130.
[13]Ma M, Yin Z, Zhang S, et al. Diagnosing root causes of intermittent slow queries in cloud databases[J]. Proceedings of the VLDB Endowment, 2020, 13(8): 1176-1189.

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入188体育app官网:的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847