跳转到内容

資料倉儲:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
Time killer留言 | 贡献
无编辑摘要
和平-bot留言 | 贡献
機器人:標記不合跨語言連結規範之頁面
第1行: 第1行:
{{Link style|time=2015-12-13T15:32:14+00:00}}
{{noteTA
{{noteTA
|G1=IT
|G1=IT

2015年12月13日 (日) 15:32的版本

数据仓库資料倉儲)是一门新兴的资讯科技相关理论,以下用二种方式解释。

较简易的解释方式

資料倉儲是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。

利用資料倉儲方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个資料倉儲皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。

较学术的解释方式

資料倉儲由資料倉儲之父W.H.Inmon于1990年提出,主要功能乃是将组织透过资讯系统之联机交易处理经年累月所累积的大量资料,透过資料倉儲理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法,例如线上分析处理資料挖掘之进行,并且进而支援例如决策支援系统主管资讯系统之建立,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智慧

資料模型

有別於一般联机交易处理系統,資料模型設計是一個資料倉儲設計的地基,目前兩大主流理論分別為採用正規方式(normalized approach)或多維方式(dimensional approach)進行資料模型設計。資料模型可以分為邏輯與實體資料模型。邏輯資料模型陳述業務相關資料的關聯,基本上是一種與資料庫無關的結構設計,通常均會採用正規方式設計,主要精神是從企業業務領域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設計時不會考慮未來採用的資料庫管理系統,也不需考慮分析效能問題。而實體資料模型則與資料庫管理系統有關,是建置在該系統上的資料架構,故設計時需考慮資料型態(data type)、空間及效能相關的議題。實體資料模型設計,則較多有採用正規方式或多維方式的討論,但從實務上來說,不執著於理論,能與業務需要有最好的搭配,才是企業在建置資料倉儲時的正確考量。

資料倉儲的建制不仅只是资讯工具技术面的运用,在规划和执行面更需对产业知识、行销管理、市场定位、策略规划等相关条件有深入的了解,才能真正发挥資料倉儲以及后续分析工具的价值,提升组织竞争力。

資料倉儲的特性

  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,資料倉儲的资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 整合性(Integrated)
资料来自企业各OLTP系统,在資料倉儲中是整合过且一致的。
  • 时间差异性(Time-Variant)
资料的变动,在資料倉儲中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
  • 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)

ODS、資料倉儲和资料超市之异同

Operational data store、資料倉儲和资料超市三者相同之处在于均不属于任一OLTP系统,并且都是以资料导向的设计而非流程导向。

相异之处在于,ODS的特性较着重于战术性查询,变动性大。資料倉儲通常为企业层级,用来解答即兴式、临时性的问题。而资料超市则较偏向解决特定单位或部门的问题,部分采用维度模型(dimensional model)。

資料挖掘、OLAP和資料倉儲

資料倉儲可以作为資料挖掘OLAP等分析工具的资料来源,由于存放于資料倉儲中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。

資料挖掘OLAP同为分析工具,其差别在于OLAP提供使用者一便利的多维度观点和方法,以有效率的对資料进行复杂的查询动作,其预设查询条件由使用者预先设定,而資料挖掘,则能由资讯系统主动发掘资料来源中,未曾被查觉的隐藏资讯,和透过使用者的认知以产生知识。

資料挖掘技术是经由自动或半自动的方法探勘及分析大量的资料,以建立有效的模型及规则,而企业透过資料挖掘更瞭解他们的客户,进而改进他们的行销、业务及客服的运作。資料挖掘是資料倉儲的一种重要运用。基本上,它是用来将你的资料中隐藏的资讯挖掘出来,所以Data Mining其实是所谓的Knowledge Discovery的一部份,Data Mining使用了许多统计分析与Modeling的方法,到资料中寻找有用的特征(Patterns)以及关连性(Relationships)。Knowledge Discovery的过程对Data Mining的应用成功与否有重要的影响,只有它才能确保Data Mining能获得有意义的结果。

代表产品

Sybase - IQ
Oracle - Oracle Database / Oracle Exadata
TeraData - TeraData
IBM - Red Brick
Netezza - Netezza TwinFin
NEC - InfoFrame DWH Appliance
Microsoft - Microsoft SQL Server
Pivotal - Greenplum

参见