大數據
此條目的语调或风格或許不适合百科全書。 (2013年8月5日) |
此條目形似新聞稿,或帶有過度的宣傳性語調。 (2013年7月8日) |
大数据(英語:Big data[1][2]),或稱巨量資料、海量資料、大资料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。網路上每一筆搜索,網站上每一筆交易、每一筆輸入都是數據,透過計算機做篩選、整理、分析,所得出的結果可不僅僅止得到簡單、客觀的結論,更能用於幫助企業經營決策,蒐集起來的資料還可以被規畫,引導開發更大的消費力量。
大数据的常见特点是4V:Volume、Velocity、Variety、Veracity(資料量大、输入和处理速度快、資料多样性、真實性)。
“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。
定義
大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、庋用、管理和處理能力[3],大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。
資料探勘(Data Mining)則是在探討用以解析大數據的方法。
在一份2001年的研究[4]與相關的演講中,當時麦塔集团(英語:META Group,現被高德纳咨询公司收購[5])的分析員道格·萊尼(Doug Laney)指出數據增長有三個方向的挑戰和機遇:量(Volume,數據大小)、速(Velocity,資料输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大數據產業中的公司,都繼續使用這3個V去描述大數據。[6]於2012年,高德納修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。」[原文 1][7]另外,有機構在3V之外定義第4個V,真实性(Veracity)為第四特点(也有称第四点为Value,价值密度低)[8]。
看到數據之變化
代表性人物與分析方法
分析大數據本身,以及數據之間的交互關係,人類通常使用多媒體的方式呈現視覺效果,以下舉出代表性的人士、以及分析工具。
- 漢斯·羅斯林、國際衛生學教授、使用工具「Trendalyzer軟體」。目的是呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對、例如︰收入、宗教、能源使用量……等等。詳細的表達方法及說明,可以在中文維基該條目中「演講錄影」觀看。
應用範例
- 臺灣「e化天眼計劃」系統,在2013年八里雙屍案偵辦時、調閱警方與民政系統共305具監視器影像資料時間長達1個月,將謝依涵、呂炳宏、張翠萍、陳進福等人的車輛軌跡與通聯紀錄輸入後、將零星、片段資料,分析影像、比對車號進行交叉比對。鎖定死者失蹤前、屍體被發現後,失蹤當晚究竟是赴誰的約會?警方表示,「人證會有記憶上的遺漏或誤差」,但科學辦案完全以證據說話。[9][10][11]
- 日本「N系統」(自動車ナンバー自動読取装置),可以全年無休對道路上行駛的車輛牌照拍照存檔,記錄下行駛的路線與時間。同時在資料庫中比對被通緝中嫌犯或竊贓車的車牌號碼,如果發現符合,該系統立即通知在外巡邏的警員(配合攜帶式接收裝置),及時對該車輛進行欄截圍捕。另外、東京都警視廳也配合「3D臉部自動辨識系統」辨識人貌鑑定,警察如需調查案情之時,就能夠調出資料庫數據,進行交叉比對,篩選出可疑的犯罪目標。[12][13]
以上二則常被誤認為是大數據以及資料探勘的應用,乃因其一仍然以人工比對、費時費力,其二並非從一無法管理之龐大數據中解析所需資訊。
开源工具
- Apache Hadoop是開放原始碼的分散式檔案系統,可以用於各種不同電腦之間,總和成為單一電腦系統進行平行運算。
商业大数据工具
- 一体机
IBM Netezza, Oracle Exadata, SAP Hana等等
- 数据仓库
Amazon Redshift, Teradata AsterData, EMC GreenPlum, HP Vertica等等
- 数据集市
Fongrai, QlikView, Tableau, Yonghong Data Mart等等
相關條目
延伸導讀
- ISBN 978-986-320-191-5 《大數據》
- ISBN 978-986-241-673-0 《雲端時代的殺手級應用:Big Data海量資料分析》
注释
- ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.
参考文献
- ^ White, Tom. Hadoop: The Definitive Guide. O'Reilly Media. 10 May 2012: 3. ISBN 978-1-4493-3877-0.
- ^ MIKE2.0, Big Data Definition.
- ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
- ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [6 February 2001].
- ^ Acquisitions. Gartner. [2013-06-29].
- ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [13 July 2011]. (原始内容存档于10 July 2011).
- ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012].
- ^ What is Big Data?. Villanova University.
- ^ 2013-03-29 八里雙屍案 雲端分析行車軌跡(中央社)
- ^ 2013-01-25 新北市警局與中華電信聯手發表「科技防衛城e化天眼計畫」
- ^ 2013-01-25 新北市警局與中華電信啟用「e化天眼」計劃(iThome/蘇文彬)
- ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(報告書全文)
- ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(HTML檔)
延伸閱讀
- The Rise of Industrial Big Data Leveraging large time-series data sets to drive innovation, competitiveness and growth--capitalizing on the big data opportunity. GE Intelligent Platforms White Paper.
- Hilbert, Martin; López, Priscila. The World's Technological Capacity to Store, Communicate, and Compute Information. Science. 2011 pmid = 21310967, 332 (6025): 60–65.
- Resources on how Topological Data Analysis is used to analyze big data