傅一航

傅一航

人工智能讲师

 讲师首页 课程 文章 联系方式

网站首页>名师博客 > 大数据营销

决策树:构造决策树,实现分类预测

讲师:傅一航   已加入:1254天   关注:370   


  分类,就是确定某个对象属于哪个预定义的目标类的过程。

  在机器学习中,分类法有很多种,比如决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法,等等。

  而决策树是最常见的一种简单却广泛使用的分类技术。

  决策树,是一种树形结构,其中每个节点表示一个属性,每个分支代表属性的取值,每个叶节点代表一种类别。

  第一步:选择一个属性,构造根节点

  比如选择“月收入”构造根节点,其中“月收入”有三个取舍{低、中、高},因此根节点有三个分支,这样,形成3个子结点(也就是有3个子类别)。

  如下图所示,根节点中的数据表示,总共有14个人,其中违约用户5个,按照“月收入”进行分类,可以分成3个子类别,其中“收入低”的类别共有5个人,其中违约用户3个;“收入中”的用户共有4人,没有人违约。

  第二步:对于不纯的子节点,选择一个属性继续生长

  对于“收入中”子节点,只有一种用户(非违约用户),因此子节点是纯的节点,不需要继续生长了。

  对于“收入低”子节点,违约用户和非违约用户都有,属于不纯节点,因此还需要继续生长。

  在“收入低”子节点中,选择一个属性“性别 ”继续生长,性别有2个取值{男、女},因此子结点可以分解为2个子节点。“收入低、男性”子节点中共有3个人,全部是违约用户;“收入低、女性”子节点共有2个人,全部都不是违约用户。

  类似地,对于“收入高“的子节点,选择“行业”属性进行生长,也得到2个子节点。

  决策树:构造决策树,实现分类预测

  第三步:停止决策树的生长

  如上图所示,当所有的子结点都满足了停止生长的条件(比如所有子结点都是纯的),决策树就算完成了。

  此时,所有的叶结点就是决策树的分类类别。

  第四步:评估分类质量

  决策树构造好之后,需要评估模型的好坏(质量)。

  一般采用查准率和查全率来衡量模型的好坏,如上例所示。

  查准率:总共有14个人,模型分类正确的有14个人,即查准率为100%。

  查全率:总共有5个人违约,模型查出来的也是5个人,即查全率为100%。

  查准率和查全率都比较高,说明模型比较好,可用。

  第五步:提取“违约用户”的特征

  我们将有违约用户的叶结点用背景色标识出来,可以发现那些违约用户的特征:

  1) 月收入低,且性别为男;

  2) 月收入高,且在皮具行业工作。

  第六步:预测新用户预测

  当决策树模型构造好以后,就可以用来进行预测。

  当一个新的申请货款的用户来货款时,可以根据决策树模型,来评估用户最有可能属于哪一个节点,如果新用户所属叶节点的违约风险极高,则应该拒绝给新用户货款;否则可以进行放货。

  决策树的构造,理解起来是很简单的。而且,容易生成或提取可识别的类别特征。

  当然,其背后的实现算法还有很多需要思考的,比如应该选择哪个属性来进行生长?属性的分支取值如何确定?决策树生长的停止条件如何确定?这些内容对于开发者和算法设计者很重要,请关注我后续的文章。

上一篇: 疫情后将加速门店新零售改造
下一篇: 怎么一开口就能深入人心,让别人愿意听你的?


其他相关热门文章:

其他相关课程:


联系电话:4000504030
24小时热线(微信):
13262638878(华东)
18311088860(华北)
13380305545(华南)
15821558037(华西)
服务投诉:13357915191

 
线上课程关注公众号