决策树分类(decision tree classification)和python实现 - Go语言中文社区

决策树分类(decision tree classification)和python实现


决策树分类很符合人类分类时的思想,决策树分类时会提出很多不同的问题,判断样本的某个特征,然后综合所有的判断结果给出样本的类别。例如下图的流程即为一个典型的决策树分类的流程图,这个流程图用来简略的判断一个小学生是否学习很好,当然这里只是举个例子,现在的小学生可是厉害的不行了,这点评判标准完全不够看啊。。。

这里写图片描述
说白了决策树就是if else的堆砌,是一个树形结构,我们在构建决策树分类器的时候主要关心的是用什么特征分类和分多少个枝叶。

特征选择

首先我们来说说特征选择,我们给出如下表所示的一系列样本

样本 花瓣颜色 花蕊长度 树叶类型 种类
1 绿色 三角 A
2 红色 方形 B
3 绿色 三角 B
4 绿色 方形 A
5 红色 三角 B
6 绿色 方形 B

我们要根据花瓣颜色、花蕊长度和树叶类型这三个特征对样本植物辨别出其种类A或B,那么应该以什么样的标准选择特征呢?

信息增益

“信息熵”(information entropy)是度量样本集合纯度的一种常用指标,若集合D中存在d个类别的N个样本,令pk=NkNp_{k}=frac{N_{k}}{N}

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢