跳转到内容

大數據

本页使用了标题或全文手工转换
维基百科,自由的百科全书

这是本页的一个历史版本,由暖雪留言 | 贡献2014年2月12日 (三) 02:21 定義编辑。这可能和当前版本存在着巨大的差异。

美國國防高等研究計劃署Big Data計畫的識別圖

大数据(英語:Big data[1][2]),或稱巨量資料海量資料大资料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。網路上每一筆搜索,網站上每一筆交易、每一筆輸入都是數據,透過計算機做篩選、整理、分析,所得出的結果可不僅僅止得到簡單、客觀的結論,更能用於幫助企業經營決策,蒐集起來的資料還可以被規畫,引導開發更大的消費力量。

大数据的常见特点是4V:Volume、Velocity、Variety、Veracity(資料量大、输入和处理速度快、資料多样性、真實性)。

“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。

定義

大數據由巨型數據集英语Data set組成,這些數據集大小常超出人類在可接受時間下的收集英语data acquisition庋用英语data curation、管理和處理能力[3],大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。

資料探勘(Data Mining)則是在探討用以解析大數據的方法。

在一份2001年的研究[4]與相關的演講中,當時麦塔集团(英語:META Group,現被高德纳咨询公司收購[5])的分析員道格·萊尼(Doug Laney)指出數據增長有三個方向的挑戰和機遇:量(Volume,數據大小)、速(Velocity,資料输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大數據產業中的公司,都繼續使用這3個V去描述大數據。[6]於2012年,高德納修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。」[原文 1][7]另外,有機構在3V之外定義第4個V,真实性(Veracity)為第四特点(也有称第四点为Value,价值密度低)[8]

看到數據之變化

IBM的視覺化程式Pearle,對維基百科使用者編輯之紀錄,其數據進行視覺化的呈現。

代表性人物與分析方法

分析大數據本身,以及數據之間的交互關係,人類通常使用多媒體的方式呈現視覺效果,以下舉出代表性的人士、以及分析工具。

  • 漢斯·羅斯林、國際衛生學教授、使用工具「Trendalyzer軟體」。目的是呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對、例如︰收入、宗教、能源使用量……等等。詳細的表達方法及說明,可以在中文維基該條目中「演講錄影」觀看。

應用範例

  • 臺灣「e化天眼計劃」系統,在2013年八里雙屍案偵辦時、調閱警方與民政系統共305具監視器影像資料時間長達1個月,將謝依涵、呂炳宏、張翠萍、陳進福等人的車輛軌跡與通聯紀錄輸入後、將零星、片段資料,分析影像、比對車號進行交叉比對。鎖定死者失蹤前、屍體被發現後,失蹤當晚究竟是赴誰的約會?警方表示,「人證會有記憶上的遺漏或誤差」,但科學辦案完全以證據說話。[9][10][11]
  • 日本「N系統」(自動車ナンバー自動読取装置),可以全年無休對道路上行駛的車輛牌照拍照存檔,記錄下行駛的路線與時間。同時在資料庫中比對被通緝中嫌犯或竊贓車的車牌號碼,如果發現符合,該系統立即通知在外巡邏的警員(配合攜帶式接收裝置),及時對該車輛進行欄截圍捕。另外、東京都警視廳也配合「3D臉部自動辨識系統」辨識人貌鑑定,警察如需調查案情之時,就能夠調出資料庫數據,進行交叉比對,篩選出可疑的犯罪目標。[12][13]

以上二則常被誤認為是大數據以及資料探勘的應用,乃因其一仍然以人工比對、費時費力,其二並非從一無法管理之龐大數據中解析所需資訊。

开源工具


商业大数据工具

  • 一体机

IBM Netezza, Oracle Exadata, SAP Hana等等

  • 数据仓库

Amazon Redshift, Teradata AsterData, EMC GreenPlum, HP Vertica等等

  • 数据集市

Fongrai, QlikView, Tableau, Yonghong Data Mart等等

相關條目

延伸導讀

注释

  1. ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

参考文献

延伸閱讀

外部連結