注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

奕克

爱家人爱工作爱生活

 
 
 

日志

 
 

jiawei.Han数据挖掘视频笔记  

2010-06-08 20:29:54|  分类: 技术 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
 
1.数据仓库是面向主题的,time-varient,需要加上时间这维,past5-10years data,短期不变的数据。
2.OLTP for database operation and OLAP for decision making, 
   OLTP size MB-GB and OLAP size GB-TB
3. Dimension tables such as item(item_name,brand) and time(day etc...); fact table contains measures(such as dollars_sold) and keys to related dimension table.
4. data cleaning is the number one problem in data warehousing
5.data cleaning task: fill in missing values, identify outliers and smooth out noisy data,correct inconsistent data
,resolve data redundancy casused by integration.
 6.feature selection: decision tree induction.  Data compression: typically lossy, discrete wavelet transformation(DWT),discrete Fourier transformation(DFT).DWT is specially success in Video/Audio compression. principal component analysis(PCA)  stems from statistic.
 7.regression(linear,multiple) and log-linear models
8.simple random sampling may have very poor performance in the presence of skew. which stratified sampling can conjunction with.
9.three types of attributes :nominal, ordinal, continuous.
10.some classification algorithms only accept categorical attributes.
11.data cubes can identify the expensive computations.e.g. count() ,sum(),average(). and perform the computation and store results in the cubes.
 
  评论这张
 
阅读(100)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017