跳至內容

大數據

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

這是本頁的一個歷史版本,由暖雪對話 | 貢獻2014年2月12日 (三) 02:21 定義編輯。這可能和目前版本存在着巨大的差異。

美國國防高等研究計劃署Big Data計劃的識別圖

大數據(英語:Big data[1][2]),或稱大數據海量資料大資料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。網絡上每一筆搜尋,網站上每一筆交易、每一筆輸入都是數據,透過計算機做篩選、整理、分析,所得出的結果可不僅僅止得到簡單、客觀的結論,更能用於幫助企業經營決策,蒐集起來的資料還可以被規劃,引導開發更大的消費力量。

大數據的常見特點是4V:Volume、Velocity、Variety、Veracity(資料量大、輸入和處理速度快、資料多樣性、真實性)。

「大數據」是由數量巨大、結構複雜、類型眾多數據構成的數據集合,是基於雲端運算的數據處理與應用模式,通過數據的整合共用,交叉復用形成的智力資源和知識服務能力。

定義

大數據由巨型數據集英語Data set組成,這些數據集大小常超出人類在可接受時間下的收集英語data acquisition庋用英語data curation、管理和處理能力[3],大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始着手大數據,奧巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。

數據探勘(Data Mining)則是在探討用以解析大數據的方法。

在一份2001年的研究[4]與相關的演講中,當時麥塔集團(英語:META Group,現被高德納諮詢公司收購[5])的分析員道格·萊尼(Doug Laney)指出數據增長有三個方向的挑戰和機遇:量(Volume,數據大小)、速(Velocity,資料輸入輸出的速度)與多變(Variety,多樣性),合稱「3V」或「3Vs」。高德納與現在大部份大數據產業中的公司,都繼續使用這3個V去描述大數據。[6]於2012年,高德納修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。」[原文 1][7]另外,有機構在3V之外定義第4個V,真實性(Veracity)為第四特點(也有稱第四點為Value,價值密度低)[8]

看到數據之變化

IBM的視覺化程式Pearle,對維基百科用戶編輯之紀錄,其數據進行視覺化的呈現。

代表性人物與分析方法

分析大數據本身,以及數據之間的互動關係,人類通常使用多媒體的方式呈現視覺效果,以下舉出代表性的人士、以及分析工具。

  • 漢斯·羅斯林、國際衛生學教授、使用工具「Trendalyzer軟件」。目的是呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對、例如︰收入、宗教、能源使用量……等等。詳細的表達方法及說明,可以在中文維基該條目中「演講錄影」觀看。

應用範例

  • 臺灣「e化天眼計劃」系統,在2013年八里雙屍案偵辦時、調閱警方與民政系統共305具監視器影像資料時間長達1個月,將謝依涵、呂炳宏、張翠萍、陳進福等人的車輛軌跡與通聯紀錄輸入後、將零星、片段資料,分析影像、比對車號進行交叉比對。鎖定死者失蹤前、屍體被發現後,失蹤當晚究竟是赴誰的約會?警方表示,「人證會有記憶上的遺漏或誤差」,但科學辦案完全以證據說話。[9][10][11]
  • 日本「N系統」(自動車ナンバー自動読取裝置),可以全年無休對道路上行駛的車輛牌照拍照存檔,記錄下行駛的路線與時間。同時在資料庫中比對被通緝中嫌犯或竊贓車的車牌號碼,如果發現符合,該系統立即通知在外巡邏的警員(配合攜帶式接收裝置),及時對該車輛進行欄截圍捕。另外、東京都警視廳也配合「3D臉部自動辨識系統」辨識人貌鑑定,警察如需調查案情之時,就能夠調出資料庫數據,進行交叉比對,篩選出可疑的犯罪目標。[12][13]

以上二則常被誤認為是大數據以及數據探勘的應用,乃因其一仍然以人工比對、費時費力,其二並非從一無法管理之龐大數據中解析所需資訊。

開源工具


商業大數據工具

  • 一體機

IBM Netezza, Oracle Exadata, SAP Hana等等

  • 數據倉庫

Amazon Redshift, Teradata AsterData, EMC GreenPlum, HP Vertica等等

  • 數據市集

Fongrai, QlikView, Tableau, Yonghong Data Mart等等

相關條目

延伸導讀

註釋

  1. ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

參考文獻

延伸閱讀

外部連結