决策树：构造决策树，实现分类预测

讲师：傅一航已加入：1441天关注：2325

　　分类，就是确定某个对象属于哪个预定义的目标类的过程。

　　在机器学习中，分类法有很多种，比如决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法，等等。

　　而决策树是最常见的一种简单却广泛使用的分类技术。

　　决策树，是一种树形结构，其中每个节点表示一个属性，每个分支代表属性的取值，每个叶节点代表一种类别。

　　第一步：选择一个属性，构造根节点

　　比如选择“月收入”构造根节点，其中“月收入”有三个取舍{低、中、高}，因此根节点有三个分支，这样，形成3个子结点（也就是有3个子类别）。

　　如下图所示，根节点中的数据表示，总共有14个人，其中违约用户5个，按照“月收入”进行分类，可以分成3个子类别，其中“收入低”的类别共有5个人，其中违约用户3个；“收入中”的用户共有4人，没有人违约。

　　第二步：对于不纯的子节点，选择一个属性继续生长

　　对于“收入中”子节点，只有一种用户（非违约用户），因此子节点是纯的节点，不需要继续生长了。

　　对于“收入低”子节点，违约用户和非违约用户都有，属于不纯节点，因此还需要继续生长。

　　在“收入低”子节点中，选择一个属性“性别 ”继续生长，性别有2个取值{男、女}，因此子结点可以分解为2个子节点。“收入低、男性”子节点中共有3个人，全部是违约用户；“收入低、女性”子节点共有2个人，全部都不是违约用户。

　　类似地，对于“收入高“的子节点，选择“行业”属性进行生长，也得到2个子节点。

　　决策树：构造决策树，实现分类预测

　　第三步：停止决策树的生长

　　如上图所示，当所有的子结点都满足了停止生长的条件（比如所有子结点都是纯的），决策树就算完成了。

　　此时，所有的叶结点就是决策树的分类类别。

　　第四步：评估分类质量

　　决策树构造好之后，需要评估模型的好坏（质量）。

　　一般采用查准率和查全率来衡量模型的好坏，如上例所示。

　　查准率：总共有14个人，模型分类正确的有14个人，即查准率为100%。

　　查全率：总共有5个人违约，模型查出来的也是5个人，即查全率为100%。

　　查准率和查全率都比较高，说明模型比较好，可用。

　　第五步：提取“违约用户”的特征

　　我们将有违约用户的叶结点用背景色标识出来，可以发现那些违约用户的特征：

　　1）月收入低，且性别为男；

　　2）月收入高，且在皮具行业工作。

　　第六步：预测新用户预测

　　当决策树模型构造好以后，就可以用来进行预测。

　　当一个新的申请货款的用户来货款时，可以根据决策树模型，来评估用户最有可能属于哪一个节点，如果新用户所属叶节点的违约风险极高，则应该拒绝给新用户货款；否则可以进行放货。

　　决策树的构造，理解起来是很简单的。而且，容易生成或提取可识别的类别特征。

　　当然，其背后的实现算法还有很多需要思考的，比如应该选择哪个属性来进行生长？属性的分支取值如何确定？决策树生长的停止条件如何确定？这些内容对于开发者和算法设计者很重要，请关注我后续的文章。

傅一航

人工智能讲师

网站首页>名师博客 > 大数据营销