注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

奕克

爱家人爱工作爱生活

 
 
 

日志

 
 

The top 10 algorithm in Data Mining abstract (updating)  

2010-02-01 22:48:55|  分类: 转载 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
一、C4.5
1.practically any domain where decision boundaries between classes can be captured in terms of tree-like decompositions or regions identified by rules.

2.In c4.5, If the attribute is numerical,then the tests are again binary-valued, and of the form {≤ θ?,> θ?}, where θ
is a suitably determined threshold for that attribute.


3.C4.5 uses information-theoretic criteria such as gain (reduction in entropy of the class distribution due to applying a test) and gain ratio (a way to correct for the tendency of gain to favor tests with many outcomes).?疑问



4.For numerical attributes, the threshold is obtained by sorting on that attribute and choosing the split between successive values that maximize the criteria above.

5.Another way in which tree-growing is terminated is if the number of instances falls below a specified threshold.
Howare class labels assigned to the leaves? The majority class of the instances assigned to the leaf is taken to be the class prediction of that subbranch of the tree.
 
二、KNN
1.a well-known result by Cover and Hart [6] shows that the classification error rate of the nearest neighbor rule is bounded above by twice the optimal Bayes error rate under certain reasonable assumptions
 
2.Thus, kNN is different from most other classification techniques which have moderately to quite expensive model-building stages, but very inexpensive O(constant) classification steps.
 
3.If k is too small, then the result can be sensitive to noise points. On the other hand, if k is too large, then
the neighborhood may include too many points from other classes. An estimate of the best value for k can be obtained by cross-validation.
 
4.Another issue is the approach to combining the class labels. The simplest method is to take a majority vote,
A more sophisticated approach, which is usually much less sensitive to the choice of k, weights each object’s vote by its distance.
 
5.The choice of the distance measure is another important consideration. Commonly,Euclidean or Manhattan distance measures are used.the attributes must be scaled to prevent one dominate the others.
 
 6.A confusion matrix tabulates how the actual classes of various data instances (rows) compare to their
predicted classes (columns).
The top 10 algorithm in Data Mining abstract (updating) - wucccsk - wucccsk的博客
7.Adding weighting for nearest neighbors actually results in a modest drop in accuracy. The biggest improvement is
due to reducing the number of attributes.
 
8.weights can be assigned to the training objects themselves. This can give more weight to highly reliable training objects, while reducing the impact of unreliable objects.
 
9.in general,requires computing the distance of the unlabeled object to all the objects in the labeled set, which can be expensive particularly for large training sets.
 
10.A number of techniques have been developed for efficient computation of k-nearest neighbor distance to avoid having to compute distance to all objects in the training set. These techniques, which are particularly applicable for low dimensional data.
 
11.Some distance measures can also be affected by the high dimensionality of the data. In particular, it is well known that the Euclidean distance measure becomes less discriminating as the number of attributes increases.
 
12.The IB1 algorithm applied on the original data set gives an accuracy of 86.3% evaluated via tenfold cross-validation,
while the same algorithm applied to the first nine attributes gives an accuracy of 89.4%. In other words, using fewer attributes gives better results.
 


  评论这张
 
阅读(220)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017