用户:FBI-MAN2/Sandbox
大数据(英语:Big data)[1],或称巨量资料、海量资料。是资料量一定要达到相当规模才能做的事(例如得到新观点、创造新价值),没有一定规模就无法实现,而且这些事将会改变现有市场、组织、公民与政府的关系。[注 1]
不论是每个人口袋里的手机、背着到处走的电脑、又或是办公室所使用的的服务器系统,都是资讯化社会明显而丰硕的果实。自从电脑进入主流社会以来,累积的资料已经到了一定程度,开始带来全新特殊的改变。[注 2]
现在,世界上资讯成长的速度量前所未见,规模的改变导致从量变引发了质变。譬如天文学、基因组学之类的科学部门,在21世纪开始后的10年之间爆炸性成长,因而创造出“巨量资料”这个词;至今已经又扩展到所有人类活动领域。[注 3]
巨量资料的核心重点在于“预测”,一般将巨量资料看做是资讯工程中“人工智能”的一支,或者更具体的说是“机器学习”的一部分,但这其实会造成误导。巨量资料并不是要“敎”电脑如何像人类一样“思考”,而是要计算大量的资料,以此推断几率。[注 4]
以金融领域为例,美国股市每天大约会成交七十亿股,其中有三分之二,是由电脑用数学模型分析大量资料后自动交易。数学模型有双重目标︰一方面预测获利、一方面也试着降低风险。[注 5]
巨量资料也会为商业、市场和社会带来变化。例如、万事达卡顾问公司(MasterCard Advisors),有能力汇整分析来自210个国家、15亿人口的650亿笔交易纪录,他们发现之一是︰如果民众在下午4点左右加油,接下来的一个小时内,就可能在附近杂货店或是餐厅,花掉35美元到50美元。行销人员如果知道这种事,就能加以设计,只要差不多那个时候的加油站收据,就在背面印上附近杂货店或是餐厅的折价卷。[注 6]
定义
编辑大数据由巨型数据集组成,这些数据集大小常超出常用软件在可接受时间下的收集、策展、管理和处理能力。[2]决定大数据大小的指标永远在变,截至2012年[update],大数据中的数据集可以由几十兆字节至数拍字节的数据组成。这指标不固定是因为传统数据库管理系统以至NoSQL等新型数据库,它们的科技和处理大容量数据的能力不断在改进。[3]在这前题下,新的平台正被开发去处理这些海量资料。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油
在一份2001年的研究[4]与相关的演讲中,当时麦塔集团(英语:META Group,现被高德纳咨询公司收购[5])的分析员道格·莱尼(Doug Laney)指出数据增长有三个方向的挑战和机遇:量(Volume,数据大小)、速(Velocity,资料输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用这3个V去描述大数据。[6]于2012年,高德纳修改了对大数据的定义:“大数据是大量、高速、及/或多变的资讯资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最佳化处理。”[原文 1][7]另外,有机构在3V之外定义第4个V,真实性(Veracity)为第四特点[8]。
- ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.
看到数据之变化
编辑代表性人物与分析方法
编辑分析大数据本身,以及数据之间的交互关系,人类通常使用多媒体的方式呈现视觉效果,以下举出代表性的人士、以及分析工具。
- 汉斯·罗斯林、国际卫生学教授、使用工具“Trendalyzer软件”。目的是呈现两百多年以来全球人类的人口统计资料,跟其他数据交叉比对、例如︰收入、宗教、能源使用量……等等。详细的表达方法及说明,可以在中文维基该条目中“演讲录影”观看。
科学界研究的分析方法
编辑应用范例
编辑- 台湾“e化天眼计划”系统,在2013年八里双尸案侦办时、调阅警方与民政系统共305具监视器影像资料时间长达1个月,将谢依涵、吕炳宏、张翠萍、陈进福等人的车辆轨迹与通联纪录输入后、将零星、片段资料,分析影像、比对车号进行交叉比对。锁定死者失踪前、尸体被发现后,失踪当晚究竟是赴谁的约会?警方表示,“人证会有记忆上的遗漏或误差”,但科学办案完全以证据说话。[9][10][11]
- 日本“N系统”(自动车ナンバー自动読取装置),可以全年无休对道路上行驶的车辆牌照拍照存档,记录下行驶的路线与时间。另外、东京都警视厅也配合“3D脸部自动辨识系统”辨识人貌鉴定,警察如需调查案情之时,就能够调出数据库数据,进行交叉比对,筛选出可疑的犯罪目标。[12][13]
- 2009年Google工程师依据搜索引擎的查询数据,预测H1N1在美国冬天即将爆发流感,资讯速度比起联邦政府疾病管制局(CDC)提前。并且在《自然》期刊上发表“Detecting influenza epidemics using search engine query data(使用搜索引擎查询数据检测流感疫情)”的文章。[14][15]
- 依据《大数据》一书,第四章 相关性。案例“预测谁家的女儿未婚怀孕”P.83~85
首先就是零售商分析“怀孕的人会购买那些东西”、制作对照用的指标,其实就是购物清单。然后收集人们“信用卡、联名卡”的资料计算出“怀孕预测分数”。这则故事提到有个人很生气到零售商分店找经理出来,骂他们邮寄给读高中的女儿婴儿衣服&床优惠卷,难道是要鼓励我女儿未婚怀孕吗!!!过了几天经理打电话给这个人道歉,但是这个男人却反而对经理道歉,他说︰“我跟我女儿谈了一下,结果发现,原来家里头有些事情瞒着我,她的预产期是八月份”。
工具
编辑进行大数据计算是需要电脑软硬件配合,非自然人力可及,相关的工具如下︰
- Apache Hadoop是开放源代码的分散式档案系统,可以用于各种不同电脑之间,总和成为单一电脑系统进行平行运算。
相关条目
编辑
备注
编辑
专书
编辑书籍或论文 | 概述 |
---|---|
《大数据》 (英文:BIG DATA) ISBN 978-986-320-191-5 出版国:中华民国 出版年份:2013年6月 |
作者“麦尔荀伯格Viktor Mayer-Schonberger”、“库基耶Kenneth Cukier”,繁体中文版由天下文化出版。[18][19][20][21]
|
参考文献
编辑- ^ 天下文化出版社对于《大数据》该书的宣传页面
- ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
- ^ Hogan, M. Large Databases. 3 Jan 2013 [2013-07-05]. (原始内容存档于2013-05-14).
- ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [6 February 2001].
- ^ Acquisitions. Gartner. [2013-06-29].
- ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [13 July 2011]. (原始内容存档于2011-07-10).
- ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012].[永久失效链接]
- ^ What is Big Data?. Villanova University.
- ^ 2013-03-29 八里双尸案 云端分析行车轨迹(中央社)
- ^ 2013-01-25 新北市警局与中华电信联手发表“科技防卫城e化天眼计划”
- ^ 2013-01-25 新北市警局与中华电信启用“e化天眼”计划(iThome/苏文彬)
- ^ 治安维护上监视器(CCTV)之发展与应用 - 公务出国报告资讯网(报告书全文)
- ^ 治安维护上监视器(CCTV)之发展与应用 - 公务出国报告资讯网(HTML档)
- ^ 《自然》期刊︰Detecting influenza epidemics using search engine query data(使用搜索引擎查询数据检测流感疫情)
- ^ 文章全文(PDF):Detecting influenza epidemics using search engine query data(使用搜索引擎查询数据检测流感疫情)
- ^ “Google 流感趋势”提供全球每周流感疫情预测
- ^ Google 历史沿革/2009年10月/我们的流感监测工具流感趋势目前增加提供16个国家、37种语文的资料。
- ^ http://www.vmsweb.net/ 原作者“麦尔荀伯格Viktor Mayer-Schonberger”的网站]
- ^ 原作者“麦尔荀伯格Viktor Mayer-Schonberger”在中央电视台财经频道的访谈,2013-04-14 央视2套>《对话》谁在引爆大数据
- ^ 原作者“库基耶Kenneth Cukier”演讲,2013-04-18 GoogleTalks>BIG DATA: A Revolution That Will Transform...
- ^ 天下文化出版社对于《大数据》该书的宣传页面
延伸阅读
编辑- The Rise of Industrial Big Data Leveraging large time-series data sets to drive innovation, competitiveness and growth--capitalizing on the big data opportunity. GE Intelligent Platforms White Paper.
- Hilbert, Martin; López, Priscila. The World's Technological Capacity to Store, Communicate, and Compute Information. Science. 2011 pmid = 21310967, 332 (6025): 60–65.
- Resources on how Topological Data Analysis is used to analyze big data