分类,就是确定某个对象属于哪个预定义的目标类的过程。
在机器学习中,分类法有很多种,比如决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法,等等。
而决策树是最常见的一种简单却广泛使用的分类技术。
决策树,是一种树形结构,其中每个节点表示一个属性,每个分支代表属性的取值,每个叶节点代表一种类别。
第一步:选择一个属性,构造根节点
比如选择“月收入”构造根节点,其中“月收入”有三个取舍{低、中、高},因此根节点有三个分支,这样,形成3个子结点(也就是有3个子类别)。
如下图所示,根节点中的数据表示,总共有14个人,其中违约用户5个,按照“月收入”进行分类,可以分成3个子类别,其中“收入低”的类别共有5个人,其中违约用户3个;“收入中”的用户共有4人,没有人违约。
第二步:对于不纯的子节点,选择一个属性继续生长
对于“收入中”子节点,只有一种用户(非违约用户),因此子节点是纯的节点,不需要继续生长了。
对于“收入低”子节点,违约用户和非违约用户都有,属于不纯节点,因此还需要继续生长。
在“收入低”子节点中,选择一个属性“性别 ”继续生长,性别有2个取值{男、女},因此子结点可以分解为2个子节点。“收入低、男性”子节点中共有3个人,全部是违约用户;“收入低、女性”子节点共有2个人,全部都不是违约用户。
类似地,对于“收入高“的子节点,选择“行业”属性进行生长,也得到2个子节点。
决策树:构造决策树,实现分类预测
第三步:停止决策树的生长
如上图所示,当所有的子结点都满足了停止生长的条件(比如所有子结点都是纯的),决策树就算完成了。
此时,所有的叶结点就是决策树的分类类别。
第四步:评估分类质量
决策树构造好之后,需要评估模型的好坏(质量)。
一般采用查准率和查全率来衡量模型的好坏,如上例所示。
查准率:总共有14个人,模型分类正确的有14个人,即查准率为100%。
查全率:总共有5个人违约,模型查出来的也是5个人,即查全率为100%。
查准率和查全率都比较高,说明模型比较好,可用。
第五步:提取“违约用户”的特征
我们将有违约用户的叶结点用背景色标识出来,可以发现那些违约用户的特征:
1) 月收入低,且性别为男;
2) 月收入高,且在皮具行业工作。
第六步:预测新用户预测
当决策树模型构造好以后,就可以用来进行预测。
当一个新的申请货款的用户来货款时,可以根据决策树模型,来评估用户最有可能属于哪一个节点,如果新用户所属叶节点的违约风险极高,则应该拒绝给新用户货款;否则可以进行放货。
决策树的构造,理解起来是很简单的。而且,容易生成或提取可识别的类别特征。
当然,其背后的实现算法还有很多需要思考的,比如应该选择哪个属性来进行生长?属性的分支取值如何确定?决策树生长的停止条件如何确定?这些内容对于开发者和算法设计者很重要,请关注我后续的文章。
|
||
联系电话:4000504030 |
线上课程关注公众号 |