注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

奕克

爱家人爱工作爱生活

 
 
 

日志

 
 

基于云计算的并行数据挖掘工具平台  

2010-03-22 18:30:16|  分类: 技术 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
随着电信行业的发展,电信运营商之间的竞争也愈发激烈。为了在竞争中获取胜利,正确的商业策略成为电信运营商成功的关键环节。电信运营商拥有海量用户数据信息,利用数据挖掘技术,可在计费数据、业务订购数据、网管数据等海量用户数据中发现商业知识,为市场的精准营销打下基础。随着中国移动用户规模的扩大及对应用目标的多样需求,数据挖掘应用面临了新的挑战。
首先,用户规模越来越大,由大量用户产生了海量数据,包括业务数据、计费数据以及网管数据等。例如,一个中等规模的省公司拥有大约1000万用户,所以每年产生的CDR数据量大约在12~16TB。例如一个非常简单的业务目标的数据挖掘,经过数据预处理(Extract,Transform,Load,ETL)处理后,算法需要处理大约10GB的数据。而一个省公司的网管数据更是海量,可达到一天1TB量级。
其次,随着应用需求的愈加复杂及变化多样,数据挖掘应用向其IT支撑平台提出了更高计算要求及存储能力,且数据挖掘应用也逐步提出实时性要求,及时的商业策略才能快速占领市场。
以上问题向传统的数据挖掘系统提出了新的挑战,传统数据挖掘系统运行于Unix小型机的集中平台上,这受到很多限制。目前,以一个聚类应用为例,现有的商用数据挖掘系统仅能支持100万用户一个月内数据的知识发现,这距离我们实际的要求还相差甚远。并且,传统的IT支撑平台成本很高,成本过高会大大降低我们的竞争力。
中国移动研究院研发的基于云计算平台的并行数据挖掘工具(BC-PDM,Blue Carrier based Parallel Data Mining),集中于采用云计算技术,实现海量数据的存储、分析、处理、挖掘,向经分系统及网管系统提供高可靠性、高性能的数据挖掘分析支撑工具。
从系统架构来讲,基于云计算的并行数据挖掘工具平台包括三个层次,依下而上为分布式计算层,数据挖掘平台层以及业务应用层,具体来讲
(1)分布式计算平台层:包括三部分功能:
l  分布式文件系统:提供分布式数据文件存储功能,提供具备高可靠性、高稳定性的存储平台;
l  并行编程环境:提供基于Mapreduce的变成模型,及任务调度、任务执行、结果反馈等功能;及向平台提交作业功能;
l  分布式系统管理:实现对平台的分布式系统管理。
2)数据挖掘平台层:包括五部分功能:
l  工作流模块:实现对各个数据挖掘步骤及模块总控、调度功能;
l  数据加载模块:将源数据从其他外设中倒入云计算平台的DFS系统;
l  并行ETL模块:对原始数据进行预处理以得到挖掘数据;并行数据挖掘工具向云计算平台提交待执行的ETL任务,由云计算平台执行并反馈结果,存放于DSF
l  并行数据挖掘算法模块:实现满足业务需要的数据挖掘算法;并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务,由云计算平台执行并反馈结果,存放于DFS
l  并行结果展示模块:将并行数据挖掘算法的结果展示给用户;
(3)业务应用层:实现电信类的业务应用,以供市场部门制定营销策略,具体业务应用如:客户分群,用户职业预测等。用户可以通过两种方式使用并行数据挖掘工具:
l  基于用户GUI界面:用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示,来实现所需的应用。
l  基于算法库API:用户可以编写应用系统,调用算法库中的API来实现应用功能。
 
转帖:原帖地址
http://labs.chinamobile.com/mblog/226_15240
  评论这张
 
阅读(137)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017