问题导读
1.数据仓库的定义是什么?
2.OLAP是什么?
3. 什么是数据挖掘技术?
摘 要:
介绍了将数据仓库技术应用于地铁交通系统之中,其中采用的技术及数据来源,提出一种地铁交通数据仓库的体系结构,探讨了该体系结构建立中的数据抽取与转换、元数据、中央数据库与数据集市等重要组成部分。并且通过主题、维度、粒度等概念详细研究了该数据仓库的数据组织与数据模型的建立。正确的建立地铁交通数据仓库,将为决策者制定策略与方案提供数据环境的保障,从而辅助地铁交通管理者做出正确的管理决策。
关键词:数据仓库;决策支持;地铁交通;体系结构;数据模型
0 引 言
随着2008年奥运会的临近,北京的城市交通管理和规划越来越受到政府和社会的重视,交通状况将直接影响到奥运会的成功与否,同时,城市交通的管理和规划对城市的总体面貌、居民生活甚至经济发展都能产生极大的影响。城市地铁作为城市交通中的重要组成部分,在整个交通规划中起着举足轻重的作用。在城市地铁交通中,地铁列车信息、客流量等资源的分步情况对地铁交通中的交通规划、交通需求管理、交通管理等方面都起着重要的作用。因此,有必要对地铁交通中的地铁列车车辆信息、各车站交通流量信息(如候乘数量、下车数量等)等数据进行处理,形成数据库系统。
地铁交通各车站流量信息的准确分布信息也能给地铁营运部门做出正确的管理和规划方面的决策提供依据,而这些信息也正是地铁运行高效、及时的调度,从而既达到增加效益的经济目的又更好满足人们的乘车需求的保证。本文探讨的是充分利用现有的信息资源,在源操作型关系数据的基础上,建立基于地铁交通数据仓库的分析决策信息系统,从而辅助地铁交通管理者做出正确的管理决策。
1 采用的技术及数据来源
采用的技术简介
数据仓库技术(DW)
数据仓库的精确定义是:在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。它更像一种过程,是分布各处的数据整合、加工和分析的过程。而它的设计思想是建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,将分散的、难于访问的操作数据转换成集中统一、随时可用的信息,为管理者和决策者提供一致的分析型数据环境。有两种形式的数据环境:一是操作型数据库,主要是数据的日常操作,包括数据查询、修改等等;二是分析型数据仓库,主要解决了数据库对于数据的分析处理支持不足的缺陷,实现原有的以单一数据库为中心的数据环境向数据库与数据仓库并存的体系化环境的发展。要从大量的地铁车站交通流量信息数据中探索业务需要的规律,迫切需要运用数据仓库这种模式来处理大量数据,把这些杂乱而又繁复的数据变为面向主题的、集成的、与时间相关的,最关键就是对决策者做出正确决策提供依据的有价值得信息资源,能够及时、有效为决策提供科学的决策支持。
联机分析处理技术(OLAP)
OLAP(On-LineAnalyticalProcess,联机分析处理)是使分析人员能够从多种角度,对从原始数据转化来的、真正为用户所理解的信息进行分析,并快速获取信息的软件技术。OLAP实现了把企业内部数据和外部数据进行有效的集成,为企业的各层决策使用。它针对特定问题进行联机数据访问和分析,对数据的一系列交互查询过程,这些过程要求对数据进行多层次、多阶段的分析处理,获得更高的归纳信息。
OLAP操作模式跟OLAP(联机事务处理)是不同的。OLTP主要是面向操作人员,支持日常操作,需要同时处理大量事务,每个事务处理数据量都比较小,管理的数据是原始的、细节的、是当前数据,并可随时更新,而OLAP则面向决策人员,支持管理需要,所以占用大量系统资源,提供多角度不同详细程度查询信息,数据都是经过集成导出的、综合的、历史的,不可更新,只能周期性刷新。OLAP经常需要相应的底层数据结构支持,它的技术核心是以多维方式来组织数据,以多维方式来显示数据。
数据挖掘技术(DM)
DM(DataMining,数据挖掘),又称为数据库中知识发现(KnowlodgeDiscoveryfromDatabase),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。从数据仓库的角度来看,数据挖掘可以被认为是在线分析处理(OLAP)的高级阶段,但是基于多种数据理论先进技术的数据挖掘,其数据分析能力要远超过以数据汇总为主的数据仓库在线分析处理功能。
利用数据挖掘技术可以帮助获得决策所需的多种知识。对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外,数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。
数据来源
地铁交通数据仓库主要以地铁列车管理档案数据库、交通流量信息数据库为基础,集成地铁交通信号控制、电视监控、交通通信、事故报警等子系统的数据,获取各种动、静态交通信息,进行调度和决策。但是,这些数据分布管理于异构的数据平台,数据不易集成,而进行管理决策时,需要有机集合各种数据。为此,在传统的数据库管理系统上,将这些数据以统一的格式,集成、存储在一起,建立地铁交通数据仓库。根据主题通过专业模型对不同源数据库中的原始数据进行抽取和聚集,形成多维视角,为决策人员提供一个综合的、面向分析的决策支持数据环境。
2 相关的数据仓库模型
体系结构
地铁交通数据仓库体系结构如图1所示,从各种源数据出发,到建立集成的综合数据平台,需经如下几步:
(1)设计一个包含地铁数据和信息的数据库;
(2)利用数据管理与建模工具,对数据进行抽取、转换及装载;
(3)通过中央元数据管理,将整合后数据存放于中心数据仓库;
(4)根据决策管理各种不同任务,建立由本地元数据标明的面向各任务的数据集市;
(5)中心数据仓库及各数据集市的建立基础为多维数据库和关系数据库,用户通过OLAP及DM工具进行数据访问与分析。
数据仓库模型的建立
数据抽取和转换
为优化数据仓库的分析性能,要从源数据中抽取有用的数据,根据分析需求对之进行转换,包括检验、整理、加工和重新组织等步骤,最终以最适宜的方式存储于数据仓库中。源数据分布于不同的数据平台,因此,要针对不同情况区别对待。对于传统关系型数据库,支持一般数据抽取、复制和一定程度上数据重新组织、聚簇和汇总,满足正常情况下的数据抽取要求;对特定数据源,采用专门数据抽取和转换工具,与数据库管理系统相互配合对操作数据进行收集、转换和修订,并自动把转换后数据进行装载。
元数据
该数据仓库中的元数据包括了对整个数据仓库环境(数据仓库、多维数据库及数据获取系统)的描述。元数据记录数据仓库所存储数据的结构及数据之间的关系,从而保证数据仓库在逻辑上的一致性。元数据是整个体系结构的核心之一。
数据仓库中包括两种类型的元数据:一类是中央元数据,不仅描述源数据的格式、目标数据的格式以及如何把源数据转换成目标数据,而且还定义了整个数据仓库的信息模型,说明数据仓库中的数据结构;另一类是本地元数据,直接来源于中央元数据,通过元数据交换,负责对中央数据仓库中数据及数据集市的建立加以管理。
中央数据仓库与数据集市
中央数据仓库是整个体系结构建设的重点,数据从各信息子系统经过综合整理进入中央数据库,在中央数据库中,数据组织的应用逻辑独立性最强,抽象程度最高。
而数据集市则按照决策任务的分类进行组织,从中央数据仓库中通过数据再抽取与集成形成不同的数据集市,如地铁车辆状况、各站客流量情况、突发事件处理、特勤任务等面向不同决策任务的数据集市。数据集市的数据组织模式可以参照中央数据仓库的模式,但相对更独立,数据量小,规模小,所以决策人员能够快速获取信息。
3 数据仓库中的数据组织
数据仓库中涉及的数据不仅具有一般操作型数据而且是具备时空特性数据。地铁交通数据仓库通过主题、维度、粒度、分割等概念的引入,根据主题从不同源数据中截取多粒度的数据,并以多种维度进行存储、管理及分析。
主题的确立
面向主题进行数据组织,即在较高层次上对分析对象的数据进行完整、一致的描述,刻画各个分析对象所涉及的各项数据,以及数据之间的联系。地铁交通中涉及的因素很多,要考虑地铁交通本身的状态,还要考虑根据其自身状态做出的决策,以及这些决策与地铁交通本身的互相影响和制约关系。所以大致可以把地铁交通的基本主题确立如下所示:
扩展的星型模型
在数据仓库的数据库设计中,星型模型是一种基本的数据模式。星型模式是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(DimentsionTable)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。如图2所示为扩展的星型模型:
采用这种扩展的星型模型,多层分维结构减少了一级分维表的内容,避免一级分维表中出现大量的重复数据,使得复杂的数据模式保持简洁清晰。
关于数据仓库中的数据粒度
数据仓库的粒度描述的是数据仓库中数据单元的综合程度。粒度越小,数据就越详细,综合度就越低;反之,粒度越大,级别越高,数据综合度就越高,内容则越模糊。地铁交通数据仓库中的数据粒度的划分是根据数据采集的精度、数据的时间和空间分辨率来实现的。粒度划分的大小直接关系到数据仓库中的数据量和所适合的查询类型。
4 结束语
地铁交通数据仓库的建立,提高了整个地铁交通系统在城市交通中的重要性,并可解决日益严重的交通问题。而只有正确的建立了辅助决策的数据仓库,才能为决策者提供完整、及时、准确、明了的决策信息,使决策者做出正确决策,真正促进地铁交通的有效性,缓解城市交通问题。
|
|