讲师公开课内训文章


首页>公开课程 > 大数据营销 [返回PC端]

Python课程

讲师:尹传亮天数:2天费用:元/人关注:2561

日程安排:

课程大纲:

数据挖掘处理课程

一、数据挖掘导论
数据挖掘的基本任务与步骤:目标、数据探索、数据预处理、建模、模型评价
有监督学习
无监督学习和半监督学习算法模型
Sklean 数据挖掘和机器学习算法库介绍
大数据建模常见问题
问题引出:客户行为分析-用户用电异常的识别

二、Python 编程快速入门
Python 编程环境与语法快速入门
基础数据结构:字符串处理及应用
数据结构:列表、元组、集合、字典
Python 控制流:IF 与 while、for 循环
函数与模块定义
Python 文件读写
Python 面向对象编程思想
Python 异常处理
实验:
读写 CSV 文件
处理 Excel 文件

三、Python 数据分析进阶
Python 并行编程:多线程与多进程实现
进程与线程概念
进程同步机制
多进程实现
多线程实现
轻松访问数据库
连接访问 Sqlite
操纵 MySQL
Python 的对象关系映射模型
实验:
多进程读取超大文件
SQLite 读写练习南京?杭州?上海

四、Scikit-learn 数据预处理实践
数据统计量:期望/方差/偏度/峰度
协方差和相关系数、方差与标准差
数据描述:集中趋势、离散程度、分位数
数据可视化:直方图、盒图、散点图
数据预处理基本方法
数据归一化方法
对数据进行降维,主成分分析 PCA
实验:
利用随机森林做特征筛选
数据预处理:归一化、缺失值处理
降维 PCA 实现
找出较好的特征组合:PCA 与 LDA 效果对比
随机森林评估特征重要性

五、Python 数据分析进阶
高性能矩阵计算工具 Numpy:
Numpy 数组与元素索引
矩阵计算
通用函数、计算统计量
以表格处理数据高级数据分析包
Pandas:数据框架 Dataframe
快速索引数据
常用函数
快速可视化分析
汇总与统计
实验:基于 Pandas 的数据预处理

六、数据可视化分析
Matplotlib 绘图库介绍
快速绘图
常见绘图函数:散点图、柱状图、盒图
图片处理
三维绘图演示
Pandas 快速绘图南京?杭州?上海
实验:
绘制常见统计图
利用 Pandas 获取数据并绘图

七、Scikit-Learn 数据挖掘实践
数值预测:Logistic/Softmax 回归/随机森林
梯度下降算法:BGD 与 SGD 介绍
Sklean 决策树算法实现: ID3、C4.5、CART 决策树算法
用 Bagging 改善分类性能
随机森林方法
决策树用于分析挖掘的建模实现和决策树的评估
Sklean 决策树算法应用编程
实验:
用随机森林预测数值
决策树编程演示
决策树分析客户数据

八、 Scikit-Learn 数据挖掘实践
支持向量机 SVM
线性可分软间隔 SVM
损失函数的理解
支持向量回归 SVR
不平衡数据集的处理
分类器性能评价
支持向量机的参数调优
分类器性能评价
实验:
银行信贷客户分类
Grid 法调参
不平衡分布对性能的影响
交叉验证
多分类器性能比较:ROC 曲线
问题讨论:用电异常行为识别

九、无监督学习:Scikit-Learn 聚类分析
Jaccard 相似度
Pearson 相关系数与余弦相似度南京?杭州?上海
层次聚类
K-means 聚类
半监督 AP 聚类算法及其应用
密度聚类 DBSCAN
聚类评价和结果指标
实验:
K-Means 算法原理和实现
密度聚类
比较不同的聚类算法
问题讨论:客户分级

十、神经网络实践
神经网络基本原理
浅层神经网络与深层网络分析
神经网络用于数值预测
神经网络用于分类
Scikit-Learn 神经网络实现
案例分享:阿里云天池赛电力 AI:预测用电量

十一、Python 数据挖掘项目实践
根据客户数据集特点,完成数据的预处理、特征筛选
客户流失问题建模与分类
客户分级建模
解决方案讨论
大数据挖掘技术的发展
案例分享:用户画像
需新增重点内容:
基于阿里MAXCOMPUTE的相关PYTHON函数学习
多增加PYTHON机器学习的实验课
大数据应用解决实践方法及案例

数据挖掘处理课程

上一篇: 动态平衡中的自我管理
下一篇: 管理者角色与认知


其他相关公开课程:


联系电话:4000504030
24小时热线(微信):
13262638878(华东)
18311088860(华北)
13380305545(华南)
15821558037(华西)
服务投诉:13357915191

 
线上课程关注公众号