Week 17: Decision trees(决策树)

学习内容

What is a decision tree?

Untitled

为了获得更好的泛化，需要使用少量节点

**从信息论的知识中我们知道：信息熵越大，从而样本纯度越低。**ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜索遍历可能的决策树空间（C4.5 也是贪婪搜索）。其大致步骤为：

目的：找到一个与训练实例相一致的小树思路：（递归）选择 "最重要 "的属性作为（子）树的根。

<aside> 💡 一个好的属性将例子分成（理想情况下）"全部为正面 "或 "全部为负面 "的子集。

</aside>