注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

奕克

爱家人爱工作爱生活

 
 
 

日志

 
 

从OLAP、数据挖掘到OLAM(转载)  

2010-05-31 01:50:46|  分类: 转载 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
         OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在多维视图的基础之上,强调执行效率和对用户命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式(Patterns),一般并不过多考虑执行效率和响应速度。OLAM——OnLine Analytical Mining是二者相结合的产物,又称为OLAP Mining,目前是学术界研究的一大热点。本文在简单介绍OLAP和数据挖掘的基础上,重点讨论OLAM的发展动力、体系结构及发展前景。
  OLAP与数据挖掘
  OLAP主要有两个特点,一是在线性(On-Line),体现为对用户请求的快速响应和交互式操作,它的实现是由Client/Server这种体系结构来完成的;二是多维分析(Multi_Analysis),这也是OLAP技术的核心所在。
  DM(Data Mining),或者说KDD,是从大量原始数据中抽取模式的一个处理过程,抽取出来的模式就是所谓的知识,必须具备可信、新颖、有效和易于理解这四个特点。
  OLAM——OLAP Mining
  OLAP+数据挖掘=OLAM 从以上的分析中我们可以发现,OLAP和DM虽然都是数据库(数据仓库)的分析工具,但其应用范围和侧重点是不同的。
  OLAP的在线性体现在与用户的交互和快速响应,多维性则体现在它建立在多维视图的基础上。用户积极参与分析过程,动态地提出分析要求、选择分析算法,对数据进行由浅及深的分析。
  DM与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化是说,其分析过程不需要用户的参与,这是它的优点,也正是它的不足,因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等等。
  由此可见,OLAP与DM各有所长,如果能将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,将更能适应实际的需要。而OLAM(Online Analytical Mining或OLAP Mining),正是这种结合的产物。
  
        发展OLAM的原始驱动力有以下几点:
  (1) Data Mining工具需要的数据是一些经过净化、集成处理的数据,通常这种处理过程也是昂贵的;而DW(Data Warehouse,数据仓库)作为OLAP的数据源,存储的就是这样的数据。它能为OLAP提供数据,当然也可以为DM提供数据;
  (2) DW是一项崭新的技术,很多人在研究它。围绕着它有许多工具或是体系结构。而DM作为数据分析工具的一种,不是孤立的,也必然要与其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工具,也是OLAM发展之初所关心的问题;
  (3) 成功的数据挖掘需要对数据进行钻探性(exporatory)分析,比如,挖掘所需的数据可能只是一部分、一定范围的数据。因此,对多维数据模型的切片、切块、下钻等操作,同样可以应用于DM的过程中。也就是说,可以将DM建立在多维模型(或说超级立方体)的基础之上。
  (4) 用户的参与对DM的重要性,动态地提出挖掘要求、选择挖掘算法。故可以将OLAP的Client/Server结构应用于DM中来。
  
        OLAM的体系结构
  OLAM的挖掘分析处理是建立在超级立方体的基础之上的,而且,在实际应用中,尽管OLAM的多维计算可能需要更多的维数和更强大的访问工具,但我们可以断定,用于OLAP的立方体和用于OLAM的立方体之间并没有本质的区别。因此,我们可以将OLAM的结构图与OLAP画在一起。
  我们可以看到,OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方体作一定的操作,然后将挖掘分析结果展现给用户,这个过程是动态的。多维数据视图(超立方体)是OLAM的基础,多维视图的组织方式对于系统的执行效率和响应速度起着至关重要的作用。根据多维数据实际存在形式的不同,有两种组织方式:
  △ 基于多维数据库:在这种方式下,来自各关系数据库的综合数据以实际的多维形式被存储在多维数据库(MDDB)里。
  △ 基于关系型数据库:在这种情况下,多维数据视图是在程序执行时由RDBMS翻译执行相应SQL语句来实现的。
  两种结构各有长处,前者执行效率高、响应速度快,后者则在灵活性和扩展性方面要优于前者。在实际应用中到底应该采用哪一种,还是一个需要探讨的问题。
  
       OLAM的功能特征
  建立在庞大数据库或数据仓库基础上的OLAM在实现过程中面临的最大挑战是执行效率的提高和对用户请求的快速响应。目前还没有OLAM的产品出现,对OLAM所应具备的特征也众说纷纭。但是,针对OLAM的发展驱动力和基本结构,以下几点是必要的:
  (1) OLAM建立在多维数据库和OLAP的基础之上,因此应能方便地对任何一部分数据或不同抽象级别的数据进行挖掘。这是借助OLAP对超级立方体进行切片、切块、下钻等操作来实现的。另外,如果需要,OLAM还可以直接访问存储在底层数据库里的数据。总之,借助于OLAP的支持,OLAM能对任何它想要的数据进行挖掘。
  (2) 用户对挖掘算法具有动态选择的权力,在传统的关系数据库应用中,对同一个主题,任何不同的查询过程所得到结果是相同的。而数据挖掘则不然,对同一个问题,运用不同的挖掘算法,得出的结果可能大相径庭。因此很有必要给予用户以动态选择挖掘算法的权力。此外,有的用户针对自己的问题,可能有一套他自己独特的挖掘算法,也希望嵌入到OLAM中,因此,OLAM应该具有一个通用的接口,以便与其他工具或算法相衔接。
  (3) OLAM建立在多维数据视图的基础之上,因此,基于超立方体的挖掘算法是其核心所在。超立方体计算与传统挖掘算法的结合使得数据挖掘有了极大的灵活性和交互性。这里所说的立方体计算方法一般指切片、切块、下钻、旋转等操作;而挖掘算法则是指关联、分类、聚类等基于关系型或事务型的挖掘算法。
 
        结语
  通过以上的分析我们可以得出以下结论:OLAM是OLAP与数据挖掘相结合的产物,它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库(数据仓库)应用工具未来发展的方向。目前,这个领域中的研究工作尚处于起步阶段,还有很多问题需要得到解决,包括技术问题和非技术问题。这不仅给广大研究工作者带来挑战,同时也给他们带来了机遇。
  评论这张
 
阅读(174)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017