当前位置 博文首页 > 风信子的猫Redamancy的快乐星球:李航统计学习方法 Chapter5 决

    风信子的猫Redamancy的快乐星球:李航统计学习方法 Chapter5 决

    作者:[db:作者] 时间:2021-08-22 08:52

    第5章 决策树

    1.分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树可以转换成一个if-then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。

    2.决策树学习旨在构建一个与训练数据拟合很好,并且复杂度小的决策树。因为从可能的决策树中直接选取最优决策树是NP完全问题。现实中采用启发式方法学习次优的决策树。

    决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。常用的算法有ID3、C4.5和CART。

    3.特征选择的目的在于选取对训练数据能够分类的特征。特征选择的关键是其准则。常用的准则如下:

    (1)样本集合 D D D对特征 A A A的信息增益(ID3)

    g ( D , A ) = H ( D ) ? H ( D ∣ A ) g(D, A)=H(D)-H(D|A) g(D,A)=H(D)?H(DA)

    H ( D ) = ? ∑ k = 1 K ∣ C k ∣ ∣ D ∣ log ? 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|} H(D)=?k=1K?DCk??log2?DCk??

    H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) H(D | A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right) H(DA)=i=1n?DDi??H(Di?)

    其中, H ( D ) H(D) H(D)是数据集 D D D的熵, H ( D i ) H(D_i) H(Di?)是数据集 D i D_i Di?的熵, H ( D ∣ A ) H(D|A) H(DA)是数据集 D D D对特征 A A A的条件熵。 D i D_i Di? D D D中特征 A A A取第 i i i个值的样本子集, C k C_k Ck? D D D中属于第 k k k类的样本子集。 n n n是特征 A A A取 值的个数, K K K是类的个数。

    (2)样本集合 D D D对特征 A A A的信息增益比(C4.5)

    g R ( D , A ) = g ( D , A ) H ( D ) g_{R}(D, A)=\frac{g(D, A)}{H(D)} gR?(D,A)=H(D)g(D,A)