資料倉儲
数据仓库(港台译資料倉儲)是一门新兴的资讯科技相关理论,以下用二种方式解释。
较简易的解释方式
資料倉儲是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。
利用資料倉儲方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个資料倉儲皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。
较学术的解释方式
資料倉儲 ,由資料倉儲之父W.H.Inmon于1990年提出,主要功能乃是将组织透过资讯系统之联机交易处理(OLTP)经年累月所累积的大量资料,透过資料倉儲理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如线上分析处理(OLAP)、資料挖掘(Data Mining)之进行,并进而支援如决策支援系统(DSS)、主管资讯系统(EIS)之建立,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智慧(BI)。
資料模型
有別於一般联机交易处理(OLTP)系統,資料模型設計是一個資料倉儲設計的地基,目前兩大主流理論分別為採用正規方式(normalized approach)或多維方式(dimensional approach)進行資料模型設計。 資料模型可以分為邏輯與實體資料模型。邏輯資料模型陳述業務相關資料的關聯,基本上是一種與資料庫無關的結構設計,通常均會採用正規方式設計,主要精神是從企業業務領域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設計時不會考慮未來採用的資料庫管理系統,也不需考慮分析效能問題。而實體資料模型則與資料庫管理系統有關,是建置在該系統上的資料架構,故設計時需考慮資料型態(data type)、空間及效能相關的議題。 實體資料模型設計,則較多有採用正規方式或多維方式的討論,但從實務上來說,不執著於理論,能與業務需要有最好的搭配,才是企業在建置資料倉儲時的正確考量。
資料倉儲的建制不仅只是资讯工具技术面的运用,在规画和执行面更需对产业知识、行销管理、市场定位、策略规画等相关条件有深入的了解,才能真正发挥資料倉儲以及后续分析工具的价值,提升组织竞争力。
資料倉儲的特性
- 主题导向(Subject-Oriented)
- 有别于一般OLTP系统,資料倉儲的资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
- 整合性(Integrated)
- 资料来自企业各OLTP系统,在資料倉儲中是整合过且一致的。
- 时间差异性(Time-Variant)
- 资料的变动,在資料倉儲中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
- 不变动性(Nonvolatile)
- 资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)
ODS、資料倉儲和资料超市之异同
Operational data store(ODS)、資料倉儲和资料超市三者相同之处在于均不属于任一OLTP系统,并且都是以资料导向的设计而非流程(process)导向。
相异之处在于,ODS的特性较着重于战术性查询,变动性大。資料倉儲通常为企业层级,用来解答即兴式、临时性的问题。而资料超市则较偏向解决特定单位或部门的问题,部分采用维度模型(dimensional model)。
資料挖掘、OLAP和資料倉儲
資料倉儲可以作为資料挖掘和OLAP等分析工具的资料来源,由于存放于資料倉儲中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。
資料挖掘和OLAP同为分析工具,其差别在于OLAP提供使用者一便利的多维度观点和方法,以有效率的对資料进行复杂的查询动作,其预设查询条件由使用者预先设定,而資料挖掘,则能由资讯系统主动发掘资料来源中,未曾被查觉的隐藏资讯,和透过使用者的认知以产生知识。
資料挖掘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的资料,以建立有效的模型及规则,而企业透过資料挖掘更瞭解他们的客户,进而改进他们的行销、业务及客服的运作。 資料挖掘是資料倉儲的一种重要运用。基本上,它是用来将你的资料中隐藏的资讯挖掘出来,所以 Data Mining 其实是所谓的 Knowledge Discovery 的一部份,Data Mining 使用了许多统计分析与 Modeling 的方法,到资料中寻找有用的特征(Patterns)以及关连性(Relationships)。 Knowledge Discovery 的过程对 Data Mining 的应用成功与否有重要的影响,只有它才能确保 Data Mining 能获得有意义的结果。