(一)统计分析、数据仓库与可视化表达
1、 综述(大数据、人工智能、数据挖掘、机器学习:这些词的确切含义)
2、 假设检验:“小数据”时代是怎么玩的?
3、 “回归”是数据挖掘算法吗?
4、 度量、指标与维度
5、 星型模型与雪花模型
6、 下钻与上卷
7、 数据仓库的应用案例
8、 图表该怎么画才对?
(二)大数据相关技术综述
1、 hadoop:HDFS、Map-Reduce、Hbase、Hive、sqoop、pig、oozie等
2、 spark:scala、spark-SQL、spark-Streaming等
3、 搜索引擎:lucene(solr)、ES
4、 并发的机器学习工具:R-hadoop、spark-MLLIB、 spark-R、pyspark
(三)存储在hbase中的数据
1、 NoSQL(key-value)
2、 Hbase:安装
3、 行键与列簇
4、 如何利用Hbase的特点存储行业数据
5、 应用程序如何访问Hbase中的数据
6、 数据迁移工具:sqoop
7、 Hbase的应用场景
(四)Hive:为SQL开发者留的活路
1、 Hive:安装(单用户与多用户)
2、 Hive:基本操作
3、 Hive:与典型的关系型数据库的区别
4、 存储业务数据时的注意点
5、 如果“想慢”,你还可以这样…(不恰当使用hive的案例介绍)
6、 Hive的应用场景
(六)Spark各组件的应用
1、 Hadoop*的特点是什么?
2、 Spark概述与安装
3、 Scala:你可以一直“点”下去
4、 RDD:“映射”、“转换”解决一切
5、 spark-SQL
6、 spark-streaming
7、 spark-graphX
8、 spark-MLLIB
9、 应用场景
(七)机器学习-1
1、 数据挖掘、知识发现与机器学习
2、 工具:(早期)SPSS、SAS;
3、 目前流行的工具R、Python等
4、 决策树(熵、贪心法、连续的和离散的)
5、 聚类(k-means、k-medoid)
6、 监督学习、无监督学习的差异
7、 机器学习性能评价指标
(八)机器学习-2
1、 KNN
2、 关联规则(频繁项集、Apriori、支持度、置信度、提升度)
3、 神经网络(神经元、激励函数、前馈神经网络的BP算法)
4、 SVM(*间隔、核函数、多分类的支持向量机)
(九)机器学习-3
1、 “概率派”与“贝叶斯派”
2、 朴素贝叶斯模型(皮马印第安人患糖尿病风险预测)
3、 极大似然估计与EM算法
4、 HMM(三个基本问题:评估、解码、学习)
(十)机器学习-4
1、 遗传算法 (交叉、选择、变异,“同宿舍”问题)
2、 无监督学习
3、 集成学习(adaboost、RF)
4、 强化学习
(十一)深度学习-1
1、 连接主义的兴衰
2、 地形要更陡:改进的目标函数
3、 0.9的100次方等于几?克服梯度消散的方法(改进的激励函数、BN)
4、 利用“惯性”下山:改进的优化算法(Adagrad、RMSprop、Adam)
5、 防止“大锅饭”:dropout
6、 记忆的关键是“合理的忘记”:weight decay
(十二)深度学习-2
1、 让AI理解图像:典型CNN
2、 各种CNN
3、 让AI理解语言:RNN与LSTM、GRU
4、 左右互搏术:GAN
5、 电子游戏的新玩法:DQN
|
||
联系电话:4000504030 |
线上课程关注公众号 |