决策树特征选择总结论文

决策树特征选择总结论文

问:建立决策树,现在有50多个变量,到底选择哪些变量
  1. 答:五十个特征不算多。
    如果要进行特征选择,决策树自带特征选择的功能,使用的是信息增益,也可以是信息增益率,gini系数。把决策树建立的原理搞明白就懂了,如果需要进行选择,则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等,目的就是为了防止过拟合与提高效率,其实防止过拟合可以使用随机森林(Random Forest)。
    顺便说一下,其它的特征选择方法:
    1. 卡方检验Chi-square
    2. 信息增益(IG,Information Gain)
    3. 信息增益率(IGR)
    4. 基尼系数
    5. 相关系数
    等等。。。
    具体原理,google吧
问:分类问题,当使用决策树怎样做特征处理
  1. 答:你的样本量多半太少了,做决策树至少要1000个样品,上万都是正常的事情并不是所有的数据都适合决策树分析的,数据没有问题,而是你对方法的选择有问题
问:决策树方法的基本思想是什么
  1. 答:对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。即通过一系列规则对数据进行分类的过程。
    顺便问句,是拿去看的还是打成电子稿的啊,o(∩_∩)o 考试。
  2. 答:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
    决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。
  3. 答:对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。即通过一系列规则对数据进行分类的过程。
    顺便问句,是拿去看的还是打成电子稿的啊!o(∩_∩)o 考试顺利啊~~~~
问:数据挖掘中决策树算法
  1. 答:决策树算法有很多种,比喻有ID3(利用信息增益来选择决策变量),C4.5(利用信息增益率来选择决策变量),CART,chain以及quest等,不同的决策树适用情况也不一样,有机会可以多多交流。。
问:论文中应用了决策树算法的有哪些
  1. 答:ID3算法,最简单的决策树
    c4.5 是最经典的决策树算法,选择信息差异率最大的作为分割属性。
    CART算法,适合用于回归
决策树特征选择总结论文
下载Doc文档

猜你喜欢