跳至內容

資料倉儲

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

這是本頁的一個歷史版本,由Addbot留言 | 貢獻2013年3月9日 (六) 13:54 (机器人:移除36个跨语言链接,现在由维基数据d:q193351提供。)編輯。這可能和目前版本存在著巨大的差異。

資料倉儲中国大陆数据仓库)是一門新興的資訊科技相關理論,以下用二種方式解釋。

較簡易的解釋方式

資料倉儲是一種資訊系統的資料儲存理論,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。

利用資料倉儲方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。

較學術的解釋方式

資料倉儲 ,由資料倉儲之父W.H.Inmon1990年提出,主要功能乃是將組織透過資訊系統之線上異動處理(OLTP)經年累月所累積的大量資料,透過資料倉儲理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、資料挖掘(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智慧型(BI)。

資料模型

有別於一般線上異動處理(OLTP)系統,資料模型設計是一個資料倉儲設計的地基,目前兩大主流理論分別為採用正規方式(normalized approach)或多維方式(dimensional approach)進行資料模型設計。 資料模型可以分為邏輯與實體資料模型。邏輯資料模型陳述業務相關資料的關聯,基本上是一種與資料庫無關的結構設計,通常均會採用正規方式設計,主要精神是從企業業務領域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設計時不會考慮未來採用的資料庫管理系統,也不需考慮分析效能問題。而實體資料模型則與資料庫管理系統有關,是建置在該系統上的資料架構,故設計時需考慮資料型態(data type)、空間及效能相關的議題。 實體資料模型設計,則較多有採用正規方式或多維方式的討論,但從實務上來說,不執著於理論,能與業務需要有最好的搭配,才是企業在建置資料倉儲時的正確考量。

資料倉儲的建制不僅只是資訊工具技術面的運用,在規畫和執行面更需對產業知識、行銷管理、市場定位、策略規畫等相關條件有深入的了解,才能真正發揮資料倉儲以及後續分析工具的價值,提升組織競爭力。

資料倉儲的特性

  • 主題導向(Subject-Oriented)
有別於一般OLTP系統,資料倉儲資料模型設計,著重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。舉例如Party、Arrangement、Event、Product等。
  • 整合性(Integrated)
資料來自企業各OLTP系統,在資料倉儲中是整合過且一致的。
  • 時間差異性(Time-Variant)
資料的變動,在資料倉儲中是能夠被紀錄以及追蹤變化的,有助於能反映出能隨著時間變化的資料軌跡。
  • 不變動性(Nonvolatile)
資料一旦確認寫入後是不會被取代或刪除的,即使資料是錯誤的亦同。(i.e.錯誤的後續修正,便可因上述時間差異性的特性而被追蹤)

ODS、資料倉儲和資料超市之異同

Operational data store(ODS)、資料倉儲資料超市三者相同之處在於均不屬於任一OLTP系統,並且都是以資料導向的設計而非流程(process)導向。

相異之處在於,ODS的特性較著重於戰術性查詢,變動性大。資料倉儲通常為企業層級,用來解答即興式、臨時性的問題。而資料超市則較偏向解決特定單位或部門的問題,部分採用維度模型(dimensional model)。

資料挖掘、OLAP和資料倉儲

資料倉儲可以作為資料挖掘OLAP等分析工具的資料來源,由於存放於資料倉儲中的資料,必需經過篩選與轉換,因此可以避免分析工具使用錯誤的資料,而得到不正確的分析結果。

資料挖掘OLAP同為分析工具,其差別在於OLAP提供使用者一便利的多維度觀點和方法,以有效率的對資料進行複雜的查詢動作,其預設查詢條件由使用者預先設定,而資料挖掘,則能由資訊系統主動發掘資料來源中,未曾被查覺的隱藏資訊,和透過使用者的認知以產生知識。

資料挖掘(Data Mining)技術是經由自動或半自動的方法探勘及分析大量的資料,以建立有效的模型及規則,而企業透過資料挖掘更瞭解他們的客戶,進而改進他們的行銷、業務及客服的運作。 資料挖掘是資料倉儲的一種重要運用。基本上,它是用來將你的資料中隱藏的資訊挖掘出來,所以 Data Mining 其實是所謂的 Knowledge Discovery 的一部份,Data Mining 使用了許多統計分析與 Modeling 的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。 Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。

參見