讲师公开课内训文章


首页>公开课程 > IT相关 [返回PC端]

Python机器学习算法实战

讲师:傅一航天数:3天费用:元/人关注:221

日程安排:

课程大纲:

Python机器学习算法
 
【课程目标】
本课程为高级课程,专注于机器学习算法,原理,以及算法实现及优化。
通过本课程的学习,达到如下目的:
1、熟悉常见的机器学习的算法。
2、掌握机器学习的算法原理,以及数据推导。
3、学会使用Python来实现机器学习算法,以及优化算法。
4、掌握scikit-learn扩展库来实现机器学习算法。
 
【授课对象】
IT系统部、大数据系统开发部、大数据建模等IT技术人员。
 
【课程大纲】
一、机器学习基础
1、机器学习简介
2、机器学习的种类
-监督学习/无监督学习/半监督学习/强化学习
-批量学习和在线学习
-基于实例与基于模型
3、机器学习的主要战挑
-数据量不足
-数据质量差
-无关特征
-过拟合/拟合不足
4、机器学习任务
-监督:分类、回归
-无监督:聚类、降维、关联规则
5、机器学习基本过程
6、机器学习常用库
二、回归算法实现
1、建模的本质,其实是一个最优化问题
2、回归模型的基础
3、基本概念:损失函数
4、线性回归常用算法
-普通最小二乘法OLS
-梯度下降算法
-牛顿法/拟牛顿法
5、最小二乘法
a) 数学推导
b) OLS存在的问题
6、过拟合解决方法:正则化
-岭回归(Ridge)
-套索回归Lasso
-ElasticNet回归
-各种算法的适用场景
7、超大规模数据集的回归模型:迭代算法
-梯度概念
-梯度下降/上升算法
-批量梯度BGD/随机梯度SGD/小批量梯度MBGD
-学习率的影响
-早期停止法
8、梯度算法的关键问题
9、牛顿法/拟牛顿法
-泰勒公式(Taylor)
-牛顿法(Newton)
-拟牛顿法(Quasi-Newton)的优化
-DFP/BFGS/L-BFGS
10、算法比较
三、逻辑回归算法
1、逻辑回归基础
2、LR的常用算法
-*似然估计法
-梯度算法
-牛顿法
3、*似然估计法
-似然函数/损失函数
-数学推导
4、模型优化
-迭代样本的随机选择
-变化的学习率
5、逻辑回归+正则项
6、求解算法与惩罚项的关系
7、多元逻辑回归处理
-ovo
-ovr
-优缺点比较
8、逻辑回归建模实战
案例:用sklearn库实现银行贷款违约预测
案例:订阅者用户的典型特征(二元逻辑回归)
案例:通信套餐的用户画像(多元逻辑回归)
四、决策树算法
1、决策树简介
演练:识别银行欠货风险,提取欠贷者的特征
2、决策树的三个关键问题
-最优属性选择
-熵、基尼系数
-信息增益、信息增益率
-属性*划分
-多元划分与二元划分
-连续变量最优划分
-决策树修剪
-剪枝原则
-预剪枝与后剪枝
3、构建决策树的算法
-ID3、C4.5、C5.0
-CART
4、决策树的超参优化
5、决策树的解读
6、决策树建模过程
案例:商场酸奶购买用户特征提取
案例:客户流失预警与客户挽留
案例:识别拖欠银行货款者的特征,避免不良货款
案例:识别电信诈骗者嘴脸,让通信更安全
案例:电力窃漏用户自动识别
五、神经网络算法
1、神经网络简介(ANN)
2、神经元基本原理
-加法器
-激活函数
3、神经网络的结构
-隐藏层数量
-神经元个数
4、神经网络的建立步骤
5、神经网络的关键问题
6、BP算法实现
7、MLP多层神经网络
8、学习率的设置
案例:评估银行用户拖欠货款的概率
案例:神经网络预测产品销量
六、线性判别算法
1、判别分析简介
2、判别分析算法
-中心和方差
-类间散席Sb
-类内散席Sw
3、特征值和特征向量
4、多分类LDA算法
5、算法实战
案例:MBA学生录取判别分析
案例:上市公司类别评估
七、最近邻算法(KNN)
1、KNN的基本原理
2、K近邻的关键问题
-距离公式
-投票机制
3、KNN算法实现
-Brute(蛮力计算)
-Kd_tree(KD树)
-Ball_tre(球树)
4、算法比较
八、贝叶斯算法(NBN)
1、贝叶斯简介
2、贝叶斯分类原理
-先验概率和后验概率
-条件概率和类概率
3、常见贝叶斯网络
4、计算类别属性的条件概率
5、估计连续属性的条件概率
6、预测分类概率(计算概率)
7、拉普拉斯修正
案例:评估银行用户拖欠货款的概率
九、支持向量机算法(SVM)
1、支持向量机简介
-适用场景
2、支持向量机原理
-支持向量
-*边界超平面
3、线性不可分处理
-松弛系数
4、非线性SVM分类
5、常用核函数
-线性核函数
-多项式核
-高斯RBF核
-核函数的选择原则
6、SMO算法
十、模型集成优化篇
1、模型的优化思想
2、集成模型的框架
-Bagging
-Boosting
-Stacking
3、集成算法的关键过程
-弱分类器如何构建
-组合策略:多个弱学习器如何形成强学习器
4、Bagging集成算法
-数据/属性重抽样
-决策依据:少数服从多数
-随机森林RandomForest
5、Boosting集成算法
-基于误分数据建模
-样本选择权重更新
-决策依据:加权投票
-AdaBoost模型
6、GBDT模型
7、XGBoost模型
8、LightGBM模型
十一、聚类分析(客户细分)实战
1、聚类基本原理
2、K均值聚类算法
-K均值算法
3、距离计算公式
-闵可夫斯基距离(Minkowski Distance)
-曼哈顿距离(Manhattan Distance)
-欧氏距离(Euclidean Distance)
-切比雪夫距离(Chebyshev Distance)
-余弦距离(Cosine)
-Pearson相似距离
-马哈拉诺比斯距离(Mahalanobis)
-汉明距离(Hamming distance)
-杰卡德相似系数(Jaccard similarity coefficient)
-相对熵(K-L距离)
4、K均值算法的关键问题
-初始中心的选取方式
-最优K值的选取
5、聚类算法的评价方法
-Elbow method(手肘法)
-Calinski-Harabasz Index(CH准则法)
-Silhouette Coefficient(轮廓系数法)
-Gap Statistic(间隔统计量法)
-Canopy算法
6、算法实战
案例:使用SKLearn实现K均值聚类
十二、关联规则算法
1、关联规则基本原理
2、常用关联规则算法
-Apriori算法
-发现频繁集
-生成关联规则
-FP-Growth算法
-构建FP树
-提取规则
3、算法实战
案例:使用apriori库实现关联分析
案例:中医证型关联规则挖掘
十三、协同过滤算法
1、协同过滤基本原理
2、协同过滤的两各类型
-基于用户的协同过滤UserCF
-基于物品的协同过滤ItemCF
3、相似度评估常用公式
4、UserCF算法实现
-计算用户间的兴趣相似度
-筛选前K个相似用户
-合并相似用户购买过的物品集
-剔除该用户已经购买过的产品,得到候选物品集
-计算该用户对物品的喜欢程度,物品集排序
-优先推荐前N个物品
5、ItemCF算法实现
-计算物品间的相似度
-筛选前K个喜欢的物品
-合并与前K个物品相似的前L个物品集
-剔除该用户已经购买过的物品,得到候选物品集
-计算该用户到候选物品的喜爱程度,物品排序
-优先推荐前N个物品
6、关于冷启动问题
7、协同过滤算法比较
 
结束:课程总结与问题答疑。
 
Python机器学习算法

上一篇: 制造企业中高层干部管理技能特训
下一篇: Python RPA办公流程自动化实战


其他相关公开课程:


联系电话:4000504030
24小时热线(微信):
13262638878(华东)
18311088860(华北)
13380305545(华南)
15821558037(华西)
服务投诉:13357915191

 
线上课程关注公众号