一、课程简介
.大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。
.本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解数据准备、数据建模、挖掘模型建立、大数据分析与挖掘算法应用在业务模型中,结合主流的Hadoop与Spark大数据分析平台架构,实现项目训练。
.结合业界使用最广泛的主流大数据平台技术,重点剖析基于大数据分析算法与BI技术应用,包括分类算法、聚类算法、预测分析算法、推荐分析模型等在业务中的实践应用,并根据讲师给定的数据集,实现两个基本的日志数据分析挖掘系统,以及电商(或内容)推荐系统引擎。
.本课程基本的实践环境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。
.学员需要准备的电脑最好是i5及以上CPU,4GB及以上内存,硬盘空间预留50GB(可用移动硬盘),基本的大数据分析平台所依赖的软件包和依赖库等,讲师已经提前部署在虚拟机镜像(VMware镜像),学员根据讲师的操作任务进行实践。
本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
三、培训人群
1.大数据分析应用开发工程师
2.大数据分析项目的规划咨询管理人员
3.大数据分析项目的IT项目高管人员
4.大数据分析与挖掘处理算法应用工程师
5.大数据分析集群运维工程师
三、培训目标
1.本课程让学员充分掌握大数据平台技术架构、大数据分析的基本理论、大数据分析挖掘应用实战技能、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。
2.本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。
3.让学员掌握业界最流行的基于Hadoop与Spark的大数据分析挖掘平台,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系统、日志分析和电商推荐系统为案例,串联常用的数据挖掘技术进行应用教学。
四、培训特色
定制授课+ 实战案例训练+ 互动咨询讨论,共3天
(说明:讲师会提供虚拟机镜像,并把Hadoop,Spark等系统提前部署在虚拟机中,分析挖掘平台构建在Hadoop与Spark之上,学员自带笔记本,运行虚拟机,并利用同样的镜像启动多台虚拟机,构建实验集群,镜像会提前给学员)
五、师资介绍
.钟老师,男,博士毕业于中国科学院,获工学博士学位(计算机系统结构方向),曾在国内某高校和某大型通信企业工作过,目前在中国科学院某研究所工作,高级工程师,副研究员,课题组长,团队成员二十余人。大数据、云计算系列课程建设与教学专家,新技术课程开发组长。近八年来带领团队主要从事大数据管理与高性能分析处理(Hadoop、Spark、Storm)、大数据仓库(HIVE)和实时数据仓库(SparkSQL、Shark),大数据建模挖掘与机器学习(Mahout、MLib、Oryx、Pentaho BI、SAS、SPSS、R等)、MPP并行数据仓库(Greenplum etc)、NoSQL与NewSQL分布式数据库(Hbase、MongoDB、Cassandra etc)、(移动)电子商务平台、大数据搜索平台(ElasticSearch、Solr、Lucene等)、云计算与虚拟化(OpenStack,VMware,XenServer,CloudStack,KVM,Docker,SaaS服务)、云存储系统、Swift对象存储系统、网络GIS地图服务器、互联网+在线教育云平台方面的项目研发与管理工作。
六、颁发证书
参加相关培训并通过考试的学员,可以获得:
1.工业和信息化部颁发的-大数据挖掘高级工程师职业技能证书。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张。
七、详细大纲与培训内容
时间.内容提要.授课详细内容.实践训练
第一天.业界主流的数据仓库工具和大数据分析挖掘工具.1.业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案
2.业界数据仓库与数据分析挖掘平台软件工具
3.Hadoop数据仓库工具Hive
4.Spark实时数据仓库工具SparkSQL
5.Hadoop数据分析挖掘工具Mahout
6.Spark机器学习与数据分析挖掘工具MLlib
7.大数据分析挖掘项目的实施步骤.配置数据仓库工具Hadoop Hive和SparkSQL
部署数据分析挖掘工具Hadoop Mahout和Spark MLlib
.大数据分析挖掘项目的数据集成操作训练.1.日志数据解析和导入导出到数据仓库的操作训练
2.从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库
3.数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库
4.同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用
5.去除噪声.项目数据集加载ETL到Hadoop Hive数据仓库并建立多维模型
.基于Hadoop的大型数据仓库管理平台—HIVE数据仓库集群的多维分析建模应用实践.
6.基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例
7.Hive数据仓库集群的平台体系结构、核心技术剖析
8.Hive Server的工作原理、机制与应用
9.Hive数据仓库集群的安装部署与配置优化
10.Hive应用开发技巧
11.Hive SQL剖析与应用实践
12.Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧
13.Hive数据仓库报表设计
14.将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问.利用HIVE构建大型数据仓库项目的操作训练实践
.Spark大数据分析挖掘平台实践操作训练.15.Spark大数据分析挖掘平台的部署配置
16.Spark数据分析库MLlib的开发部署
17.Spark数据分析挖掘示例操作,从Hive表中读取数据并在分布式内存中运行.
第二天.聚类分析建模与挖掘算法的实现原理和技术应用.18.聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:
a).Canopy聚类(canopy clustering)
b).K均值算法(K-means clustering)
c).模糊K均值(Fuzzy K-means clustering)
d).EM聚类,即期望*化聚类(Expectation Maximization)
e).以上算法在Spark MLib中的实现原理和实际场景中的应用案例。
19.Spark聚类分析算法程序示例.基于Spark MLlib的聚类分析算法,实现日志数据集中的用户聚类
.分类分析建模与挖掘算法的实现原理和技术应用. 20.分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括:
f).Spark决策树算法实现
g).逻辑回归算法(logistics regression)
h).贝叶斯算法(Bayesian与Cbeyes)
i).支持向量机(Support vector machine)
j).以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。
21.Spark客户资料分析与给用户贴标签的程序示例
22.Spark实现给商品贴标签的程序示例
23.Spark实现用户行为的自动标签和深度技术.基于Spark MLlib的分类分析算法模型与应用操作
.关联分析建模与挖掘算法的实现原理和技术应用. 24.预测、推荐分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:
k).Spark频繁模式挖掘算法(parallel FP Growth Algorithm)应用
l).Spark关联规则挖掘(Apriori)算法及其应用
m).以上算法在Spark MLib中的实现原理和实际场景中的应用案例。
25.Spark关联分析程序示例.基于Spark MLlib的关联分析操作
第三天.推荐分析挖掘模型与算法技术应用.26.推荐算法原理及其在Spark MLlib中的实现与应用,包括:
a).Spark协同过滤算法程序示例
b).Item-based协同过滤与推荐
c).User-based协同过滤与推荐
d).交叉销售推荐模型及其实现.推荐分析实现步骤与操作(重点)
.回归分析模型与预测算法.27.利用线性回归(多元回归)实现访问量预测
28.利用非线性回归预测成交量和访问量的关系
29.基于R+Spark实现回归分析模型及其应用操作
30.Spark回归程序实现异常点检测的程序示例.回归分析预测操作例子
.图关系建模与分析挖掘及其链接分析和社交分析操作. 31.利用Spark GraphX实现网页链接分析,计算网页重要性排名
32.实现信息传播的社交关系传递分析,互联网用户的行为关系分析任务的操作训练.图数据的分析挖掘操作,实现微博数据集的社交网络建模与关系分析
.神经网络与深度学习算法模型及其应用实践.33.神经网络算法Neural Network的实现方法和挖掘模型应用
34.基于人工神经网络的深度学习的训练过程
a).传统神经网络的训练方法
b).Deep Learning的训练方法
35.深度学习的常用模型和方法
a).CNN(Convolutional Neural Network)卷积神经网络
b).RNN(Recurrent Neural Network)循环神经网络模型
c).Restricted Boltzmann Machine(RBM)限制波尔兹曼机
36.基于Spark的深度学习算法模型库的应用程序示例.基于Spark或TensorFlow神经网络深度学习库实现文本与图片数据挖掘
.项目实践.37.日志分析系统与日志挖掘项目实践
a).Hadoop,Spark,ELK技术构建日志数据仓库
b).互联网微博日志分析系统项目
38.推荐系统项目实践
a).电影数据分析与个性化推荐关联分析项目.项目数据集和详细的实验指导手册由讲师提供
.培训总结.39.项目方案的课堂讨论,讨论实际业务中的分析需求,剖析各个环节的难点、痛点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台技术知识以及应用技能.讨论交流
.两个完整的项目任务和实践案例(重点).1.日志分析建模与日志挖掘项目实践
a)Hadoop,Spark,并结合ELK技术构建日志分析系统和日志数据仓库
b)互联网微博日志分析系统项目
2.推荐系统项目实践
a)电影数据分析与个性化推荐关联分析项目
b)电商购物篮分析项目
Hadoop,Spark,可结合Oryx分布式集群在个性化推荐和精准营销项目。.项目的阶段性步骤贯穿到三天的培训过程中,第三天完成整个项目的原型
|
||
联系电话:4000504030 |
![]() 线上课程关注公众号 |