常用决策树模型介绍与python实现 - Go语言中文社区

社区微信群开通啦，扫一扫抢先加入社区官方微信群

社区微信群

常用决策树模型介绍与python实现 - Go语言中文社区

文章 (current)
Go面试题热
Go导航
Go教程
官方文档

登录
注册

常用决策树模型介绍与python实现

python

1. 引言

决策树（decision tree）是一种基本的分类和回归方法，由于其采用的是一种树形的结构，因此，具有很强的解释性和计算速度，也正是因为这些特点，使得决策树在很多行业都得到了应用，比如风控行业等。决策树的建模过程一般分为三个步骤：特征选择、决策树的生成和决策树的剪枝，根据这三个步骤所采用的规则，衍生出了很多不同的模型，比较经典的有Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及Breiman等人在1984年提出的CART算法，本文将以分类决策树为例，对这几个算法分别进行介绍，并用python进行实现。

2. 常用决策树模型介绍

2.1 决策树的定义

决策树是由结点和有向边组成的树形结构，其中，结点包含两种类型：内部结点和叶结点。内部结点表示一个特征或者属性，叶结点则表示一个类。如下图所示，其中每个圆圈表示内部结点，每个正方形表示叶结点。

对于给定的训练数据集 $D=left{left(x_{1}, y_{1}right),left(x_{2}, y_{2}right), cdots,left(x_{N}, y_{N}right)right}$

首先，构建根结点，然后将整个训练集都放在根结点。
接着，从所有特征中选择一个最优特征，并根据该特征将训练数据集分割为多个子集，使得每一个子集有一个当前条件下的最好分类，如果某个子集已经基本分类正确，则将其作为叶结点，其对应的类别作为该叶结点的类别，否则，对每个子集继续选择最优的特征进行分割，如此递归下去，直到所有的子集基本被正确分类为止。最后，每个叶结点都代表一个子集，也是特征空间中的一个子区域，每个子区域之间都是不相交的。
最后，由于第二步为了将训练集划分正确，往往构建的决策树会过于庞大，这时，模型可能会出现过拟合，导致对新的测试数据可能分类效果不好，因此，需要对决策树自下而上进行剪枝，去掉一些过于细分的叶结点，使其回退到父结点或者更高的结点，然后将父结点或者更高的结点作为新的叶结点。

这样一来，当对一个实例 $x$

2.2 ID3算法

适用场景：特征和目标变量都是离散型

2.2.1 特征选择——信息增益

特征选择是指决策树在每一次分支时，从所有的特征中选择能够对当前数据集具有最优分类能力的特征，这样可以提高模型的学习效率。ID3决策树的特征选择采用的是信息增益的方法。在介绍信息增益的概念之前，需要先介绍一下熵和条件熵的概念。

在信息论中，熵表示随机变量不确定性的度量，设 $X$

条件熵则表示在已知随机变量 $X$

信息增益则表示在得知特征 $X$

2.2.2 ID3决策树的构造

ID3算法构造决策树的思想大致如下：首先从根结点开始，对结点，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点，再对子结点递归地调用以上方法，构建决策树，直到所有特征的信息增益均很小或没有特征可以选择为止，最终得到一个决策树。其具体的算法步骤如下：

给定训练数据集 $D$
若 $D$
若 $A=varnothing$
否则，计算 $A$
如果 $A_g$
否则，对 $A_g$

版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/linchuhai/article/details/89059802
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

发表于 2020-03-01 22:45:30

分类：

你可能感兴趣的文章

我说带你五分钟学会Python协程就五分钟！不会超过六分钟！ 1198 浏览
python——asyncio模块实现协程、异步编程（二） 1561 浏览
python 协程认识，与多线程对比。 1046 浏览
Python yield和gevent实现协程 955 浏览
Python高级函数协程（广州街中软卓越） 1166 浏览
Python协程深入理解 1240 浏览
python3比多线程和多进程还好的新模块 —— 协程Coroutine 1328 浏览
python-复盘-协程yield from 彻底详解yield from／asyncio异步io/协程最简例子 1342 浏览
Python笔记（二十一）协程asyncio-1：yield from和await 2450 浏览

精选的优质文章

也许 Go 开发可以更简单！ 10578 浏览
如何使用 Golang 日志监控你的应用程序？ 12053 浏览
从Go语言实现模板设计模式浅谈Go的抽象能力 14102 浏览
阿里云基于 Go 的微服务架构分享 23968 浏览
java是否会被取代？Go会否给Java带来冲击？ 28491 浏览
千万级规模高性能、高并发的网络架构经验分享 30048 浏览
阿里部分面试题汇总,对想进阿里的同学非常实用 62343 浏览
实用好文：知乎实时数仓架构实践及演进 31364 浏览
支撑马蜂窝「双11」营销大战背后的技术架构 228307 浏览
想进大厂？50个多线程面试题，你会多少？（一） 23104 浏览

0 条评论

请先登录后评论

官方社群

关注公众号
—— 加入社区微信群 ——
→「Go语言教程」领取

GO教程

1.1 Go语言简介
1.2 Go语言的特性
1.3 Go语言为并发而生
1.4 哪些项目使用Go语言开发？
1.5 哪些大公司正在使用Go语言
1.6 Go语言的性能如何？
1.7 Go语言标准库强大
1.8 Go语言上手简单
1.9 Go语言代码风格清晰、简单
1.10 Go语言工程结构详述
1.11 第一个Go语言程序
1.12 Go语言历史版本

2.1 Go语言变量的声明
2.2 Go语言变量的初始化
2.3 Go语言多个变量同时赋值
2.4 Go语言匿名变量
2.5 Go语言变量的作用域
2.6 Go语言整型（整数类型）
2.7 Go语言浮点类型（小数类型）
2.8 Go语言复数
2.9 Go语言bool类型（布尔类型）
2.10 Go语言字符串
2.11 Go语言字符类型（byte和rune）
2.12 Go语言数据类型转换
2.13 Go语言指针
2.14 Go语言变量的生命周期
2.15 Go语言常量
2.16 Go语言类型别名
2.17 Go语言关键字与标识符
2.18 Go语言运算符的优先级

3.1 Go语言数组
3.2 Go语言多维数组
3.3 Go语言切片
3.4 使用append()为切片添加元素
3.5 Go语言切片复制
3.6 Go语言从切片中删除元素
3.7 Go语言range关键字
3.8 Go语言多维切片
3.9 Go语言map（映射）
3.10 Go语言遍历map
3.11 map元素的删除和清空
3.12 Go语言sync.Map
3.13 Go语言list（列表）
3.14 Go语言nil：空值/零值

4.1 Go语言分支结构
4.2 Go语言循环结构
4.4 Go语言键值循环
4.5 Go语言switch语句
4.6 Go语言goto语句
4.7 Go语言break（跳出循环）
4.8 Go语言continue

5.1 Go语言函数声明
5.2 Go语言函数变量
5.3 Go语言匿名函数
5.4 Go语言函数类型实现接口
5.5 Go语言闭包（Closure）
5.6 Go语言可变参数
5.7 Go语言defer（延迟执行语句）
5.8 Go语言递归函数
5.9 Go语言处理运行时错误
5.10 Go语言宕机（panic）
5.11 Go语言宕机恢复（recover）
5.12 Go语言计算函数执行时间
5.13 Go语言Test功能测试函数

6.1 Go语言结构体定义
6.2 Go语言实例化结构体
6.3 初始化结构体的成员变量
6.4 Go语言构造函数
6.5 类型内嵌和结构体内嵌
6.6 初始化内嵌结构体
6.7 内嵌结构体成员名字冲突
6.8 Go语言垃圾回收和SetFinalizer
6.9 Go语言链表操作
6.10 Go语言数据I/O对象及操作

7.1 Go语言接口声明（定义）
7.2 Go语言实现接口的条件
7.3 Go语言类型与接口的关系
7.4 Go语言类型断言
7.5 Go语言排序
7.6 Go语言接口的嵌套组合
7.9 Go语言接口和类型之间的转换
7.10 Go语言空接口类型
7.11 Go语言类型分支
7.12 Go语言error接口

8.1 包的基本概念
8.2 Go语言封装简介及实现细节
8.3 Go语言GOPATH
8.4 Go语言常用内置包
8.5 Go语言自定义包
8.6 Go语言package
8.7 Go语言导出包中的标识符
8.8 Go语言import导入包
8.9 Go语言sync包与锁
8.10 Go语言big包
8.11 Go语言正则表达式：regexp包
8.12 Go语言time包：时间和日期
8.13 Go语言os包用法简述
8.14 Go语言flag包：命令行参数解析
8.15 Go语言go mod包依赖管理工具
8.16 Go语言runtime包:运行时

9.1 Go语言并发简述
9.2 Go语言轻量级线程
9.3 Go语言并发通信
9.4 Go语言竞争状态
9.5 Go语言调整并发的运行性能
9.6 并发和并行的区别
9.7 goroutine和coroutine的区别
9.8 Go语言通道（chan）
9.9 示例：并发打印
9.10 Go语言单向通道
9.11 Go语言无缓冲的通道
9.12 Go语言带缓冲的通道
9.13 Go语言channel超时机制
9.14 Go语言多核并行化
9.15 互斥锁和读写互斥锁
9.16 Go语言等待组
9.17 死锁、活锁和饥饿概述
9.18 Go语言CSP：通信顺序进程简述
9.19 示例：聊天服务器

10.1 Go语言反射（reflection）
10.2 Go语言反射规则浅析
10.3 通过反射获取类型信息
10.4 通过反射获取指针指向的元素类型
10.5 通过反射获取结构体的成员类型
10.6 Go语言结构体标签
10.7 通过反射获取值信息
10.8 通过反射访问结构体成员的值
10.9 判断反射值的空和有效性
10.10 通过反射修改变量的值
10.11 通过类型信息创建实例
10.12 通过反射调用函数
10.13 Go语言inject库：依赖注入

11.1 Go语言自定义数据文件
11.2 Go语言JSON文件的读写操作
11.3 Go语言XML文件的读写操作
11.4 Go语言使用Gob传输数据
11.5 Go语言纯文本文件的读写操作
11.6 Go语言二进制文件的读写操作
11.7 Go语言自定义二进制文件的读写操作
11.8 Go语言zip归档文件的读写操作
11.9 Go语言tar归档文件的读写操作
11.10 Go语言使用buffer读取文件
11.11 Go语言文件的写入、追加、读取、复制操作
11.12 Go语言文件锁操作

12.1 go build命令
12.2 go clean命令
12.3 go run命令
12.4 go fmt命令
12.5 go install命令
12.6 go get命令
12.7 go generate命令
12.8 go test命令
12.9 go pprof命令

13.1 Go语言的深拷贝和浅拷贝
13.2 Go语言引用传递和值传递
13.3 Go语言的Socket编程

14.1 Golang Map底层实现
14.2 go语言触发异常的场景有哪些
14.3 Printf()、Sprintf()、Fprintf()函数的区别用法是什么
14.4 详细说说new和make的区别
14.5 详细说说切片和数组的区别
14.6 Golang的内存模型，为什么小对象多了会造成gc压力
14.7 Data Race问题怎么解决？能不能不加锁解决这个问题
14.8 在 range 迭代 slice 时，你怎么修改值的
14.9 select可以用于什么
14.10 go语言编程的好处是什么
14.11 你是否主动关闭过http连接，为啥要这样做
14.12 recover的执行时机
14.13 说出一个避免Goroutine泄露的措施
14.14 如何跳出for select 循环
14.15 如何初始化带嵌套结构的结构体
14.16 Printf()、Sprintf()、Fprintf()函数的区别用法是什么
14.17 go语言中的引用类型包含哪些
14.18 说说go语言的select机制

推荐文章

python协程3：用仿真实验学习协程
Python协程深入理解
Python之协程
Python中协程的详细用法和例子
Python 协程学习笔记
理解Python的协程(Coroutine)
python协程1：yield 10分钟入门
Python 中的协程（coroutine）简介
（2018-04-14.Python从Zero到One）三、网络编程__3.4.7多任务实现-协程
python——asyncio模块实现协程、异步编程（一）

猜你喜欢

随便看看

nginx强制刷新用户缓存_Nginx 内容缓存及常见参数配置
Nginx实现动态负载均衡
我开源了基于Vue的组织架构树组件
【转帖】浏览器缓存看这一篇就够了
并发编程之CyclicBarrier原理与使用
GitHub上的 50个Kubernetes DevOps工具
docker- 容器
一篇文章带你了解Java构造方法的定义和重载
使用 GPU.js 改善JavaScript性能
让 JavaScript 区别于其它语言的是什么？原型继承！

Go语言中文社区 | 联系我们 | 官方标准库 | 京ICP备18055895号-2

欢迎关注Go语言社区官方微信公众号，商务合作联系QQ：124096702

Powered By Release 20180601 ©2009-2022 coder55.com

发送私信

发给:

内容:

如果觉得我的文章对您有用，请随意打赏。你的支持将鼓励我继续创作！