数据科学(英语:data science)又称资料科学,是一门利用数据(资料)学习知识的学科,其目标是透过从数据中提取出有价值的部分来生产数据产品[1],学科范围涵盖了:数据获取、数据处理、数据分析等过程,举凡与数据有关的科学均属数据科学。

数据科学结合了诸多领域中的理论和技术,包括应用数学统计模式识别机器学习数据可视化数据仓库以及高性能计算。数据科学透过运用各种相关的数据来帮助非专业人士理解问题。 数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学社会科学人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助[2]

美国国家标准技术研究所于2015年发表七卷大数据参考框架(NIST Big Data Reference Architecture,NBDRA),于第一卷定义篇中将数据科学定为在理论科学实验科学计算科学之后的第四科学科学[3][4]

数据科学家是把统计学知识和计算机程序设计知识相结合,并将其用于深度分析数据来获得数据见解的职业[5]


历史 编辑

1960年代,彼得·诺尔就首次提议要用“数据科学(data science、Datalogy)”来替代“计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。

1997年11月,吴建福 发表了题为“统计=数据科学?”的就任演讲,[6] 因为他被任命为密歇根大学的 H. C.卡弗教授。[7] 在这次演讲中,他将统计工作描述为数据收集、数据建模和分析以及决策制定的三部曲。 在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,而统计学家则应重命名为数据科学家。[6] 后来,他发表了题为“统计=数据科学?”的演讲,作为他1998年的首个 P. C. 马哈拉诺比斯纪念演讲。[8] 这些讲座是为了纪念印度科学家、统计学家和印度统计学院​(英语创始人P. C. 马哈拉诺比斯​(英语

2001年,William S. Cleveland 提议将其设立为一个新的学科,吸收“计算在数据方面获取的进展”作为统计学的延伸。《Data Science Journal》及《The Journal of Data Science》分别于2002年与2003年发行;2005年9月,美国国家科学基金会发表了《长存的数码数据收集:使21世纪的研究与教育成为可能》,文中将数据科学家定义为“信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数码数据收集的成功管理至关重要。”[9] 2008年 Jeff Hamerbatcher 与 DJ Patil circa 分别在 FacebookLinkedIn 领导全球第一支数据科学团队,至此数据科学越来越被广泛流行,并应用到公共卫生、市场、金融、社会等各个领域。

数据科学家 编辑

数据科学家这个职位的头衔则是1997年吴建福的报告 "Statistics = Data Science?"中首次提及[来源请求]的,他认为数据科学家就是能够从大型数据集中析取出数据,并进行统计推断统计学家

2009 年 1 月,数字化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky 从中了解到“数据科学家”这个词,认为该词是自己所从事工作的最好描述。

2012年,数据科学家被《哈佛商业评论》称为《二十一世纪最性感的职业》[10]后,数据科学逐渐成为一个时髦术语Buzzword)。

2017年,由资料科学活动而派生的资料经济,也开始被关注。与信息经济不同的是,信息经济是由编译过的资料而产生经济价值,而资料经济的资料价值则源自于资料本身,它可以不断的被编译而产生多样化的价值。

数据科学家在美欧的需求巨大,麦肯锡公司宣布全世界上此职业人才短缺超过二十万工人[11]

参考文献 编辑

  1. ^ Dhar, Vasant. Data Science and Prediction. [2014-07-14]. (原始内容存档于2014-11-09). 
  2. ^ AOL staff. Data Scientist: The Hottest Job You Haven't Heard Of. [2014-07-14]. (原始内容存档于2014-07-17). 
  3. ^ 存档副本 (PDF). [2022-06-07]. (原始内容存档 (PDF)于2022-06-09). 
  4. ^ 大数据, 2017, 3(4): 11-19 doi: 10.11959/j.issn.2096-0271.2017037
  5. ^ Davenport, Thomas H.; Patil, D. J. Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. 2012-10-01. ISSN 0017-8012. 
  6. ^ 6.0 6.1 Wu, C. F. J. (1997). Statistics = Data Science? (PDF). [9 October 2014]. (原始内容存档 (PDF)于2014-10-14). 
  7. ^ Identity of statistics in science examined. The University Records, 9 November 1997, The University of Michigan. [12 August 2013]. (原始内容存档于2013-10-29). 
  8. ^ P.C. Mahalanobis Memorial Lectures, 7th series. P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. [18 Jul 2017]. (原始内容存档于29 October 2013). 
  9. ^ Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century. (PDF). National Science Board, September 2005, National Science Foundation. [19 January 2020]. (原始内容存档 (PDF)于2017-05-05). 
  10. ^ Data Scientist: The Sexiest Job of the 21st Century. [2017-06-17]. (原始内容存档于2017-06-14). 
  11. ^ Big data: The next frontier for innovation, competition, and productivity. [2017-06-17]. (原始内容存档于2017-06-19).