资料仓储
数据仓库(港台译資料倉儲)是一门新兴的资讯科技相关理论,以下用二种方式解释。
较简易的解释方式
资料仓储是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。
利用资料仓储方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个资料仓储皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。
较学术的解释方式
资料仓储 ,由资料仓储之父W.H.Inmon于1990年提出,主要功能乃是将组织透过资讯系统之联机交易处理(OLTP)经年累月所累积的大量资料,透过资料仓储理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如线上分析处理(OLAP)、资料挖掘(Data Mining)之进行,并进而支援如决策支援系统(DSS)、主管资讯系统(EIS)之建立,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智慧(BI)。
资料模型
有别于一般联机交易处理(OLTP)系统,资料模型设计是一个资料仓储设计的地基,目前两大主流理论分别为采用正规方式(normalized approach)或多维方式(dimensional approach)进行资料模型设计。 资料模型可以分为逻辑与实体资料模型。逻辑资料模型陈述业务相关资料的关联,基本上是一种与资料库无关的结构设计,通常均会采用正规方式设计,主要精神是从企业业务领域的角度及高度订出subject area model,再逐步向下深入到entities、attributes,在设计时不会考虑未来采用的资料库管理系统,也不需考虑分析效能问题。而实体资料模型则与资料库管理系统有关,是建置在该系统上的资料架构,故设计时需考虑资料型态(data type)、空间及效能相关的议题。 实体资料模型设计,则较多有采用正规方式或多维方式的讨论,但从实务上来说,不执著于理论,能与业务需要有最好的搭配,才是企业在建置资料仓储时的正确考量。
资料仓储的建制不仅只是资讯工具技术面的运用,在规画和执行面更需对产业知识、行销管理、市场定位、策略规画等相关条件有深入的了解,才能真正发挥资料仓储以及后续分析工具的价值,提升组织竞争力。
资料仓储的特性
- 主题导向(Subject-Oriented)
- 有别于一般OLTP系统,资料仓储的资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
- 整合性(Integrated)
- 资料来自企业各OLTP系统,在资料仓储中是整合过且一致的。
- 时间差异性(Time-Variant)
- 资料的变动,在资料仓储中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
- 不变动性(Nonvolatile)
- 资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)
ODS、资料仓储和资料超市之异同
Operational data store(ODS)、资料仓储和资料超市三者相同之处在于均不属于任一OLTP系统,并且都是以资料导向的设计而非流程(process)导向。
相异之处在于,ODS的特性较着重于战术性查询,变动性大。资料仓储通常为企业层级,用来解答即兴式、临时性的问题。而资料超市则较偏向解决特定单位或部门的问题,部分采用维度模型(dimensional model)。
资料挖掘、OLAP和资料仓储
资料仓储可以作为资料挖掘和OLAP等分析工具的资料来源,由于存放于资料仓储中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。
资料挖掘和OLAP同为分析工具,其差别在于OLAP提供使用者一便利的多维度观点和方法,以有效率的对资料进行复杂的查询动作,其预设查询条件由使用者预先设定,而资料挖掘,则能由资讯系统主动发掘资料来源中,未曾被查觉的隐藏资讯,和透过使用者的认知以产生知识。
资料挖掘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的资料,以建立有效的模型及规则,而企业透过资料挖掘更了解他们的客户,进而改进他们的行销、业务及客服的运作。 资料挖掘是资料仓储的一种重要运用。基本上,它是用来将你的资料中隐藏的资讯挖掘出来,所以 Data Mining 其实是所谓的 Knowledge Discovery 的一部份,Data Mining 使用了许多统计分析与 Modeling 的方法,到资料中寻找有用的特征(Patterns)以及关连性(Relationships)。 Knowledge Discovery 的过程对 Data Mining 的应用成功与否有重要的影响,只有它才能确保 Data Mining 能获得有意义的结果。