Python机器学习算法_傅一航讲师

课程大纲：

Python机器学习算法

【课程目标】

本课程为高级课程，专注于机器学习算法，原理，以及算法实现及优化。

通过本课程的学习，达到如下目的：

1、熟悉常见的机器学习的算法。

2、掌握机器学习的算法原理，以及数据推导。

3、学会使用Python来实现机器学习算法，以及优化算法。

4、掌握scikit-learn扩展库来实现机器学习算法。

【授课对象】

IT系统部、大数据系统开发部、大数据建模等IT技术人员。

【课程大纲】

一、机器学习基础

1、机器学习简介

2、机器学习的种类

－监督学习/无监督学习/半监督学习/强化学习

－批量学习和在线学习

－基于实例与基于模型

3、机器学习的主要战挑

－数据量不足

－数据质量差

－无关特征

－过拟合/拟合不足

4、机器学习任务

－监督：分类、回归

－无监督：聚类、降维、关联规则

5、机器学习基本过程

6、机器学习常用库

二、回归算法实现

1、建模的本质，其实是一个最优化问题

2、回归模型的基础

3、基本概念：损失函数

4、线性回归常用算法

－普通最小二乘法OLS

－梯度下降算法

－牛顿法/拟牛顿法

5、最小二乘法

a) 数学推导

b) OLS存在的问题

6、过拟合解决方法：正则化

－岭回归（Ridge）

－套索回归Lasso

－ElasticNet回归

－各种算法的适用场景

7、超大规模数据集的回归模型：迭代算法

－梯度概念

－梯度下降/上升算法

－批量梯度BGD/随机梯度SGD/小批量梯度MBGD

－学习率的影响

－早期停止法

8、梯度算法的关键问题

9、牛顿法/拟牛顿法

－泰勒公式(Taylor)

－牛顿法(Newton)

－拟牛顿法(Quasi-Newton)的优化

－DFP/BFGS/L-BFGS

10、算法比较

三、逻辑回归算法

1、逻辑回归基础

2、LR的常用算法

－*似然估计法

－梯度算法

－牛顿法

3、*似然估计法

－似然函数/损失函数

－数学推导

4、模型优化

－迭代样本的随机选择

－变化的学习率

5、逻辑回归+正则项

6、求解算法与惩罚项的关系

7、多元逻辑回归处理

－ovo

－ovr

－优缺点比较

8、逻辑回归建模实战

案例：用sklearn库实现银行贷款违约预测

案例：订阅者用户的典型特征（二元逻辑回归）

案例：通信套餐的用户画像（多元逻辑回归）

四、决策树算法

1、决策树简介

演练：识别银行欠货风险，提取欠贷者的特征

2、决策树的三个关键问题

－最优属性选择

－熵、基尼系数

－信息增益、信息增益率

－属性*划分

－多元划分与二元划分

－连续变量最优划分

－决策树修剪

－剪枝原则

－预剪枝与后剪枝

3、构建决策树的算法

－ID3、C4.5、C5.0

－CART

4、决策树的超参优化

5、决策树的解读

6、决策树建模过程

案例：商场酸奶购买用户特征提取

案例：客户流失预警与客户挽留

案例：识别拖欠银行货款者的特征，避免不良货款

案例：识别电信诈骗者嘴脸，让通信更安全

案例：电力窃漏用户自动识别

五、神经网络算法

1、神经网络简介（ANN）

2、神经元基本原理

－加法器

－激活函数

3、神经网络的结构

－隐藏层数量

－神经元个数

4、神经网络的建立步骤

5、神经网络的关键问题

6、BP算法实现

7、MLP多层神经网络

8、学习率的设置

案例：评估银行用户拖欠货款的概率

案例：神经网络预测产品销量

六、线性判别算法

1、判别分析简介

2、判别分析算法

－中心和方差

－类间散席Sb

－类内散席Sw

3、特征值和特征向量

4、多分类LDA算法

5、算法实战

案例：MBA学生录取判别分析

案例：上市公司类别评估

七、最近邻算法（KNN）

1、KNN的基本原理

2、K近邻的关键问题

－距离公式

－投票机制

3、KNN算法实现

－Brute（蛮力计算）

－Kd_tree（KD树）

－Ball_tre（球树）

4、算法比较

八、贝叶斯算法（NBN）

1、贝叶斯简介

2、贝叶斯分类原理

－先验概率和后验概率

－条件概率和类概率

3、常见贝叶斯网络

4、计算类别属性的条件概率

5、估计连续属性的条件概率

6、预测分类概率（计算概率）

7、拉普拉斯修正

案例：评估银行用户拖欠货款的概率

九、支持向量机算法（SVM）

1、支持向量机简介

－适用场景

2、支持向量机原理

－支持向量

－*边界超平面

3、线性不可分处理

－松弛系数

4、非线性SVM分类

5、常用核函数

－线性核函数

－多项式核

－高斯RBF核

－核函数的选择原则

6、SMO算法

十、模型集成优化篇

1、模型的优化思想

2、集成模型的框架

－Bagging

－Boosting

－Stacking

3、集成算法的关键过程

－弱分类器如何构建

－组合策略：多个弱学习器如何形成强学习器

4、Bagging集成算法

－数据/属性重抽样

－决策依据：少数服从多数

－随机森林RandomForest

5、Boosting集成算法

－基于误分数据建模

－样本选择权重更新

－决策依据：加权投票

－AdaBoost模型

6、GBDT模型

7、XGBoost模型

8、LightGBM模型

十一、聚类分析（客户细分）实战

1、聚类基本原理

2、K均值聚类算法

－K均值算法

3、距离计算公式

－闵可夫斯基距离(Minkowski Distance)

－曼哈顿距离(Manhattan Distance)

－欧氏距离(Euclidean Distance)

－切比雪夫距离(Chebyshev Distance)

－余弦距离(Cosine)

－Pearson相似距离

－马哈拉诺比斯距离（Mahalanobis）

－汉明距离(Hamming distance)

－杰卡德相似系数(Jaccard similarity coefficient)

－相对熵（K-L距离）

4、K均值算法的关键问题

－初始中心的选取方式

－最优K值的选取

5、聚类算法的评价方法

－Elbow method（手肘法）

－Calinski-Harabasz Index（CH准则法）

－Silhouette Coefficient（轮廓系数法）

－Gap Statistic（间隔统计量法）

－Canopy算法

6、算法实战

案例：使用SKLearn实现K均值聚类

十二、关联规则算法

1、关联规则基本原理

2、常用关联规则算法

－Apriori算法

－发现频繁集

－生成关联规则

－FP-Growth算法

－构建FP树

－提取规则

3、算法实战

案例：使用apriori库实现关联分析

案例：中医证型关联规则挖掘

十三、协同过滤算法

1、协同过滤基本原理

2、协同过滤的两各类型

－基于用户的协同过滤UserCF

－基于物品的协同过滤ItemCF

3、相似度评估常用公式

4、UserCF算法实现

－计算用户间的兴趣相似度

－筛选前K个相似用户

－合并相似用户购买过的物品集

－剔除该用户已经购买过的产品，得到候选物品集

－计算该用户对物品的喜欢程度，物品集排序

－优先推荐前N个物品

5、ItemCF算法实现

－计算物品间的相似度

－筛选前K个喜欢的物品

－合并与前K个物品相似的前L个物品集

－剔除该用户已经购买过的物品，得到候选物品集

－计算该用户到候选物品的喜爱程度，物品排序

－优先推荐前N个物品

6、关于冷启动问题

7、协同过滤算法比较

结束：课程总结与问题答疑。

Python机器学习算法

首页>公开课程 > IT相关 [返回PC端]

Python机器学习算法实战

讲师：傅一航天数：3天费用：元/人关注：2612

日程安排：

课程大纲：

上一篇: 制造企业中高层干部管理技能特训
下一篇: Python RPA办公流程自动化实战

其他相关公开课程:

关于举办系统架构与详细设计*实践培训班

Oracle高级管理与性能调优*实践培训班

软件需求开发与需求管理

信息安全与网络攻防技术培训班

国际材料数据系统新版IMDS

云计算与大数据处理技术

大数据处理技术 — 基于Hadoop的实战

IT运维与流程化建设ITIL培训班


联系电话：4000504030 24小时热线（微信）： 13262638878（华东） 18311088860（华北） 13380305545（华南） 15821558037（华西）服务投诉：13357915191		线上课程关注公众号

首页>公开课程 > IT相关 [返回PC端]

Python机器学习算法实战

讲师：傅一航天数：3天费用：元/人关注：2612

日程安排：

课程大纲：

上一篇: 制造企业中高层干部管理技能特训 下一篇: Python RPA办公流程自动化实战

其他相关公开课程:

关于举办系统架构与详细设计*实践培训班

Oracle高级管理与性能调优*实践培训班

软件需求开发与需求管理

信息安全与网络攻防技术培训班

国际材料数据系统新版IMDS

云计算与大数据处理技术

大数据处理技术 — 基于Hadoop的实战

IT运维与流程化建设ITIL培训班

上一篇: 制造企业中高层干部管理技能特训
下一篇: Python RPA办公流程自动化实战