數據倉庫
數據倉庫(中国大陆译数据仓库)是一門新興的資訊科技相關理論,以下用二種方式解釋。
較簡易的解釋方式
數據倉庫是一種資訊系統的資料儲存理論,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。
利用數據倉庫方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個數據倉庫皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。
較學術的解釋方式
數據倉庫 ,由數據倉庫之父W.H.Inmon於1990年提出,主要功能乃是將組織透過資訊系統之線上異動處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、數據捕撈(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。
資料模型
有別於一般線上異動處理(OLTP)系統,資料模型設計是一個數據倉庫設計的地基,目前兩大主流理論分別為採用正規方式(normalized approach)或多維方式(dimensional approach)進行資料模型設計。 資料模型可以分為邏輯與實體資料模型。邏輯資料模型陳述業務相關資料的關聯,基本上是一種與資料庫無關的結構設計,通常均會採用正規方式設計,主要精神是從企業業務領域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設計時不會考慮未來採用的資料庫管理系統,也不需考慮分析效能問題。而實體資料模型則與資料庫管理系統有關,是建置在該系統上的資料架構,故設計時需考慮資料型態(data type)、空間及效能相關的議題。 實體資料模型設計,則較多有採用正規方式或多維方式的討論,但從實務上來說,不執著於理論,能與業務需要有最好的搭配,才是企業在建置數據倉庫時的正確考量。
數據倉庫的建制不僅只是資訊工具技術面的運用,在規畫和執行面更需對產業知識、行銷管理、市場定位、策略規畫等相關條件有深入的了解,才能真正發揮數據倉庫以及後續分析工具的價值,提升組織競爭力。
數據倉庫的特性
- 主題導向(Subject-Oriented)
- 有別於一般OLTP系統,數據倉庫的資料模型設計,着重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。舉例如Party、Arrangement、Event、Product等。
- 整合性(Integrated)
- 資料來自企業各OLTP系統,在數據倉庫中是整合過且一致的。
- 時間差異性(Time-Variant)
- 資料的變動,在數據倉庫中是能夠被紀錄以及追蹤變化的,有助於能反映出能隨着時間變化的資料軌跡。
- 不變動性(Nonvolatile)
- 資料一旦確認寫入後是不會被取代或刪除的,即使資料是錯誤的亦同。(i.e.錯誤的後續修正,便可因上述時間差異性的特性而被追蹤)
ODS、數據倉庫和資料超市之異同
Operational data store(ODS)、數據倉庫和資料超市三者相同之處在於均不屬於任一OLTP系統,並且都是以資料導向的設計而非流程(process)導向。
相異之處在於,ODS的特性較着重於戰術性查詢,變動性大。數據倉庫通常為企業層級,用來解答即興式、臨時性的問題。而資料超市則較偏向解決特定單位或部門的問題,部分採用維度模型(dimensional model)。
數據捕撈、OLAP和數據倉庫
數據倉庫可以作為數據捕撈和OLAP等分析工具的資料來源,由於存放於數據倉庫中的資料,必需經過篩選與轉換,因此可以避免分析工具使用錯誤的資料,而得到不正確的分析結果。
數據捕撈和OLAP同為分析工具,其差別在於OLAP提供用戶一便利的多維度觀點和方法,以有效率的對資料進行複雜的查詢動作,其預設查詢條件由用戶預先設定,而數據捕撈,則能由資訊系統主動發掘資料來源中,未曾被查覺的隱藏資訊,和透過用戶的認知以產生知識。
數據捕撈(Data Mining)技術是經由自動或半自動的方法探勘及分析大量的資料,以建立有效的模型及規則,而企業透過數據捕撈更瞭解他們的客戶,進而改進他們的行銷、業務及客服的運作。 數據捕撈是數據倉庫的一種重要運用。基本上,它是用來將你的資料中隱藏的資訊挖掘出來,所以 Data Mining 其實是所謂的 Knowledge Discovery 的一部份,Data Mining 使用了許多統計分析與 Modeling 的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。 Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。