基于Web技术的数据仓库和数据挖掘
余 峰
摘 要:随着数据仓库和web技术的迅猛发展,人们对数据仓库和web技术的研究越来越广泛,数据仓库设计得是否合理,将直接关系到整个数据仓库的成败。本文分析web技术与数据仓库,并将web挖掘技术引入到数据仓库中。
关键词:数据仓库 数据挖掘 web挖掘
中图分类号:TP311.13 文献标识码:A 文章编号:1006-7973(2006)08-0094-02
Web技术的飞速发展对数据仓库产生了巨大的影响。数据仓库提供了自由使用存储信息的途径,而利用Web技术可以方便、经济有效地获得有关信息。这两者技术的充分结合,产生了使信息分布和处理更加经济、更加高效的Web方式的数据仓库系统。基于Web方式的数据仓库技术改变了用户对数据仓库的使用模式。数据仓库是存储供查询和决策分析用的集成化信息仓库,它的数据来源于数据库。基于Web方式的数据仓库主要是指它的数据来源于WEB站点。目前,通过Web方式可以充分地共享应用和信息,利用Web技术进行原有业务增值己成为信息技术的趋势。因此在进行数据仓库系统设计时,人们一直在追求最大限度地取得决策所需的各种信息,共享各种应用,组建基于Web方式的数据仓库和基于Web的数据挖掘技术的方案得以提出。
一、数据仓库和基于Web技术的数据仓库 1.数据仓库
数据仓库是一个面向主题的、集成的、非易失性的且随时间变化的数据集合,用来支持管理人员的决策。在数据仓库中数据是以主题而不是以应用来组织的,即在较高层次上按照某个宏观分析领域将数据综合、归类。譬如,对于一个保险公司来说,应用问题可能是汽车保险、医疗保险、意外伤亡保险,而主题范围可能是顾客、保险单、保险费以及赔偿费。同时数据仓库的用户一般只涉及对数据的加载和访问,很少或者根本不对数据进行更新。
数据仓库是不同时间的数据的集合。随着时间的推移,必须不断增加数据仓库中数据的内容。数据仓库中数据的存储期一般为5到10年,以便很好地满足决策和趋势分析的需要。数据仓库中的数据都要标明该数据的历史时期,因此数据的码键总是包含某些时间元素。
数据仓库是决策支持系统的基础,建立数据仓库的最终目的是为了有效地支持决策,使得在数据仓库环境中决策支持系统(DecisionSupportSystem,DSS)分析员和决策者的工作变得更为容易。
数据仓库的结构一般采用3层结构(如图1所示),操作型环境中主要从事事务处理,其中存放了一些细节数据,它是数据仓库中数据的来源。不同操作系统环境中的数据经过抽取、清理以及转换后进入全局数据仓库中。数据集市是在全局数据仓库的基础上,针对企业不同的业务领域,为不同的用户群组织的小型数据仓库,它包含了企业中特定领域如人力、销售或者市场的数据。
图1 数据仓库的结构
2.基于Web技术的数据仓库
Web是在超文本基础上形成的庞大信息网,它以B/S模式运行,是一种重要的信息发布和检索手段。浏览器和服务器之间通过HTTP交换信息,通过Web方式可以充分集成和应用各种先进的IT技术,数据仓库也不例外。WEB技术的发展为解决传统模式的数据仓库系统的问题提供了解决方法,这就是把WEB技术与数据仓库技术进行结合,将数据仓库构建在B/S(浏览器/服务器)模式上.B/S/模式在传统C/S/模式客户端和服务器端的基础上,把C/S模式的服务器端进一步深化,分解成一个服务器和应用服务器,从而形成客户端、服务器和应用服务器三层构架。在客户端只需要安装能连入的浏览器,客户端的计算机就可以建立在任何平台之上;服务器主要用来管理客户端与应用服务器之间信息流的输入、输出;应用服务器端包括应用程序软件包和数据仓库两部分,应用程序软件包括工具,工具以及构造数据仓库的数据抽取!转换和集成等工具。基于的数据仓库结构如图2
收稿日期:2006-8-3
作者简介:余 峰 男(1977-) 湖北职业技术学院机电工程系 教师 (432000) 研究方向:软件工程
第8期 余 峰:基于Web技术的数据仓库和数据挖掘 95 所示。
图2 Web数据仓库的结构
基于WEB的数据仓库技术彻底改变了最终用户对数据仓库的使用模式,用户通过浏览器提交分析请求,WEB服务器将用户的分析请求提交给应用服务器,应用服务器端的OLAP、DM等工具通过调用数据仓库内的数据完成分析操作并将结果转给WEB服务器,然后WEB服务器将结果返回给用户端。WEB技术和数据仓库的有机结合,不仅保留了传统数据仓库技术支持决策的特点,而且进一步扩大了数据仓库的应用范围,人们对数据仓库的访问不再局限于局域网的限制,而是只需要通过或就可以实现远程的数据仓库访问,所得的分析结果也可以借助于服务器迅速发布,从而使数据仓库应用得更加灵活。
二、基于Web的数据挖掘技术
当今数据库的容量己经达到上万亿的水平。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些信息呢?数据挖掘的应用满足了从海量数据提取有用信息的要求。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,这些模型和关系可以被企业用来分析风险、进行预测。数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。它使用模式认知技术、统计技术和数学技术。
数据挖掘用数理统计方法或人工神经元网络作数据分析,同时要想有效地进行数据挖掘也必须要有好的工具和一整套妥善的方法论。可以说在数据挖掘中采用的工具、使用工具的能力、以及数据挖掘过程中的方法论在很大程度上决定了能开拓的成果。数据挖掘方法包括以下几个步骤:数据取样;数据特征探索、分析预处理;问题明确化、数据调整和技术选择;模型的研发、知识的发现;模型和知识的综合解释和评价。
基于Web的数据挖掘(以下称网络挖掘)成为网络仓库的一个关键技术。与传统的数据挖掘相比,网络挖掘有如下特点:
1.算法的效率要求更高
由于基于Web的数据仓库所存储的数据量比一般的数据仓库中的数据量庞大得多,而且每天都在迅速增长和更新,从如此巨量的数据中有效提取有用的信息要求数据采掘速度必须有很高的效率;
2.有强大的并行性
分布在网络上各个站点的资源通过因特网连成一个大型
分布的数据库,数据的巨大规模和广泛分布要求并行性很高;
3.具有动态性
Web中的数据更新速度特别迅速,针对当前状态的信息能快速更新知识,提供准确的决策支持要求数据采掘的动态性;
4.必须有效地组织和管理数据
目前数据采掘多应用于关系数据库和面向对象数据库,它们有完整的结构,按照预先定义的模式进行组织!存储和存取,而Web中的信息往往具有半结构化或非结构化的特性,难以映射到一个固定的模式,使传统的数据模型和数据库系统难以支持Web上的信息资源,因此必须有效地组织和管理数据,从而为网络挖掘提供所需的源数据。
根据侧重点的不同,网络挖掘可分为3类:Web内容挖掘、Web结构挖掘、Web访问信息挖掘。Web内容挖掘是对Web页面内容进行挖掘,其中包括HTML中的文本挖掘,多媒体挖掘以及页面内容摘要、分类、聚类、关联规则的发现等。Web结构挖掘是对页面之间的结构进行挖掘,如Web页面之间的超级链接关系。Web访问信息挖掘主要是对用户访问Web时在服务器上留下的访问记录进行挖掘。因此对企业来讲,第三种网络挖掘是一种很重要的信息获取方式,通过对站点的点击流信息的分析,企业可获得以下内容:我们的站点哪些部分获得的用户最多?哪些部分与实际销售量联系最密切?哪些部分访问的次数最多?哪些部分经常在访问时被中断,亦即远程用户终止访问并退出?多少用户在购买东西之前是不愿意注册的等等问题。这些问题往往涉及到细节的行为水平分析,如Web数据源,用户点击的准确日期、时间,远程用户的IP地址,下载的内容及可用的Cookie信息等。但由于这些信息一方面难以获取,另一方面数据量太大,并且用户在点击网页时往往是不经意的,因此,首要的问题就是要确定和标识完全信息。一旦确定了用户访问信息,就可以通过路径分析、关联规则和序列模式的发现、聚类和分类等方法挖掘出上述有关信息,从而不断改进站点的结构设计,更好地组织站点内的Web空间,实施有效的市场战略。
参考文献
[1] 王珊,张新宇,陈红.BI三大支柱一DW.OLAP和DM.
中国人民大学数据仓库与BI工程研究中心.2002. [2] 孙翔鹏,张国枢.基于Web方式数据仓库的架构研究.安
徽理工大学学报(自然科学版).2003.23.2:25~28. [3] 郑小平.NET精髓--Web服务原理和开发.北京.人民邮
电出版社.2002:229~258.
[4] W.H.Inmon著,王志海等译.Building The Data
Warehouse.2nd Edition.机械工业出版社.2000. [5] 王珊等.数据仓库技术与联机分析处理.北京科学出版
社.1998.
因篇幅问题不能全部显示,请点此查看更多更全内容