大數據
此條目的語調或風格或許不適合百科全書。 (2013年8月5日) |
此條目形似新聞稿,或帶有過度的宣傳性語調。 (2013年7月8日) |
大數據(英語:Big data[1][2]),或稱大數據、海量資料、大資料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。網絡上每一筆搜尋,網站上每一筆交易、每一筆輸入都是數據,透過計算機做篩選、整理、分析,所得出的結果可不僅僅止得到簡單、客觀的結論,更能用於幫助企業經營決策,蒐集起來的資料還可以被規劃,引導開發更大的消費力量。
大數據的常見特點是4V:Volume、Velocity、Variety、Veracity(資料量大、輸入和處理速度快、資料多樣性、真實性)。
「大數據」是由數量巨大、結構複雜、類型眾多數據構成的數據集合,是基於雲端運算的數據處理與應用模式,通過數據的整合共用,交叉復用形成的智力資源和知識服務能力。
定義
大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、庋用、管理和處理能力[3],大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始着手大數據,奧巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。
數據探勘(Data Mining)則是在探討用以解析大數據的方法。
在一份2001年的研究[4]與相關的演講中,當時麥塔集團(英語:META Group,現被高德納諮詢公司收購[5])的分析員道格·萊尼(Doug Laney)指出數據增長有三個方向的挑戰和機遇:量(Volume,數據大小)、速(Velocity,資料輸入輸出的速度)與多變(Variety,多樣性),合稱「3V」或「3Vs」。高德納與現在大部份大數據產業中的公司,都繼續使用這3個V去描述大數據。[6]於2012年,高德納修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。」[原文 1][7]另外,有機構在3V之外定義第4個V,真實性(Veracity)為第四特點(也有稱第四點為Value,價值密度低)[8]。
看到數據之變化
代表性人物與分析方法
分析大數據本身,以及數據之間的互動關係,人類通常使用多媒體的方式呈現視覺效果,以下舉出代表性的人士、以及分析工具。
- 漢斯·羅斯林、國際衛生學教授、使用工具「Trendalyzer軟件」。目的是呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對、例如︰收入、宗教、能源使用量……等等。詳細的表達方法及說明,可以在中文維基該條目中「演講錄影」觀看。
應用範例
- 臺灣「e化天眼計劃」系統,在2013年八里雙屍案偵辦時、調閱警方與民政系統共305具監視器影像資料時間長達1個月,將謝依涵、呂炳宏、張翠萍、陳進福等人的車輛軌跡與通聯紀錄輸入後、將零星、片段資料,分析影像、比對車號進行交叉比對。鎖定死者失蹤前、屍體被發現後,失蹤當晚究竟是赴誰的約會?警方表示,「人證會有記憶上的遺漏或誤差」,但科學辦案完全以證據說話。[9][10][11]
- 日本「N系統」(自動車ナンバー自動読取裝置),可以全年無休對道路上行駛的車輛牌照拍照存檔,記錄下行駛的路線與時間。同時在資料庫中比對被通緝中嫌犯或竊贓車的車牌號碼,如果發現符合,該系統立即通知在外巡邏的警員(配合攜帶式接收裝置),及時對該車輛進行欄截圍捕。另外、東京都警視廳也配合「3D臉部自動辨識系統」辨識人貌鑑定,警察如需調查案情之時,就能夠調出資料庫數據,進行交叉比對,篩選出可疑的犯罪目標。[12][13]
以上二則常被誤認為是大數據以及數據探勘的應用,乃因其一仍然以人工比對、費時費力,其二並非從一無法管理之龐大數據中解析所需資訊。
開源工具
- Apache Hadoop是開放原始碼的分散式檔案系統,可以用於各種不同電腦之間,總和成為單一電腦系統進行平行運算。
商業大數據工具
- 一體機
IBM Netezza, Oracle Exadata, SAP Hana等等
- 數據倉庫
Amazon Redshift, Teradata AsterData, EMC GreenPlum, HP Vertica等等
- 數據市集
Fongrai, QlikView, Tableau, Yonghong Data Mart等等
相關條目
延伸導讀
- ISBN 978-986-320-191-5 《大數據》
- ISBN 978-986-241-673-0 《雲端時代的殺手級應用:Big Data海量資料分析》
註釋
- ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.
參考文獻
- ^ White, Tom. Hadoop: The Definitive Guide. O'Reilly Media. 10 May 2012: 3. ISBN 978-1-4493-3877-0.
- ^ MIKE2.0, Big Data Definition.
- ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). 『Big Data』: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
- ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [6 February 2001].
- ^ Acquisitions. Gartner. [2013-06-29].
- ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [13 July 2011]. (原始內容存檔於10 July 2011).
- ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012].
- ^ What is Big Data?. Villanova University.
- ^ 2013-03-29 八里雙屍案 雲端分析行車軌跡(中央社)
- ^ 2013-01-25 新北市警局與中華電信聯手發表「科技防衛城e化天眼計劃」
- ^ 2013-01-25 新北市警局與中華電信啟用「e化天眼」計劃(iThome/蘇文彬)
- ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(報告書全文)
- ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(HTML檔)
延伸閱讀
- The Rise of Industrial Big Data Leveraging large time-series data sets to drive innovation, competitiveness and growth--capitalizing on the big data opportunity. GE Intelligent Platforms White Paper.
- Hilbert, Martin; López, Priscila. The World's Technological Capacity to Store, Communicate, and Compute Information. Science. 2011 pmid = 21310967, 332 (6025): 60–65.
- Resources on how Topological Data Analysis is used to analyze big data