Hadoop生态系统_尹立庆讲师

课程大纲：

Hadoop生态系统

培训目标

1、深入理解分布式原理与实现技术；

2、分布式文件系统操作能力，以HDFS为例讲解；

3、从代码的角度深入剖析MapReduce执行的具体过程；

4、培养学员具有分布式批处理计算框架的开发MapReduce代码的能力；

5、使学员掌握MapReduce内部运行和实现细节并改造MapReduce的能力；

6、使学员掌握分布式并行计算引擎的使用能力，如Spark、Impala等；

7、使学员掌握分布式数据库的使用能力，如HBase、MySQL Cluster、Redis等；

8、具备分布式流计算的开发能力，如SparkStreaming、Storm等；

培训对象

1、对大数据、分布式存储、分布式计算等感兴趣的朋友；

2、 Java、PHP、C等任意一门编程语言的开发者；

3、大型网站、电商网站等运维人员；

4、云计算、大数据从业者；

5、熟悉Hadoop生态体系，想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友；

6、系统架构师、系统分析师、高级程序员、资深开发人员；

7、牵涉到大数据处理的数据中心运行、规划、设计负责人；

8、政府机关，金融保险、移动互联网等大数据单位的负责人；

9、高校、科研院所大数据研究人员，涉及到大数据与分布式数据处理的人员；

10、数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员；

课程大纲

第1个主题：分布式基础理论知识（深入剖析分布式原理与理论，并为分布式学习奠定基础）

1、大数据技术

2、分布式技术

3、 CAP理

4、 BASE思想

5、消息机制

6、分布式协调器

7、心跳机制

8、日志结构文件系统

9、 RWN理论

10、跨操作系统调度资源

第2个主题： Hadoop大数据分布式平台概述（系统性介绍Hadoop大数据分布式平台）

1、 Hadoop是大数据架构的事实标准

2、 Hadoop工作原理及架构

3、 Hadoop生态体系介绍

4、 Hadoop应用现状

5、 Hadoop发展趋势

6、 Hadoop优势

7、实例分享：双十一亿背后的开源技术

第3个主题： Hadoop分布式集群部署与运维（动手搭建Hadoop集群及运维）

1、 SaltStack

2、 Maven

3、禁用IPV6

4、 SSH无密码登录

5、 Hadoop HA部署介绍

6、 Hadoop集群部署

7、 Hadoop集群的监控

8、 Hadoop集群的运维

第4个主题：分布式文件操作和存储（深入理解大数据分布式文件系统的原理与机制）

1、 HDFS架构剖析

2、 NameNode、DataNode、SecondaryNameNode介绍

3、 NodeName高可靠性*实践

4、 DataNode中Block划分的原理和具体存储方式

5、修改Namenode、DataNode数据存储位置

6、 CLI操作HDFS

7、 Java操作HDFS

8、 RESTful操作HDFS

9、动态修改Hadoop的Replication数目

10、 Hadoop序列化

11、 Hadoop流压缩

12、 Hadoop RPC

13、 SequenceFile与MapFile

14、 Hadoop Avro

第5个主题：分布式资源调度框架剖析（深入剖析和使用分布式资源调度框架的能力）

1、 YARN介绍

2、 YARN的设计思想

3、 YARN的核心组件

4、 YARN为核心的生态系统

5、 Yarn的 HA机制

6、 YARN应用程序编写

7、 ResourceManager深入剖析

8、 ClientRMService与AdminService

9、 NodeManager深入剖析

10、 Container

第6个主题：分布式批处理计算模型MapReduce（深入剖析MapReduce原理及开发MapReduce程序能力思维方法论）

1、 MapReduce算法剖析

2、 MapReduce编程思想

3、 MapReduce常用算法

4、 MapReduce命令操作

5、 wordcount运行过程解析

6、 MapReduce如何将HDFS文件转化为Key-Value供Map解析与处理

7、 Hadoop的调度器介绍

8、 Combiner的使用原则

9、 Partitioner的使用*实践

10、 MapReduce排序算法剖析

11、自定义排序算法

12、 Hadoop内置的分组算法

13、自定义分组算法

14、 MapReduce常见场景和算法实现

15、 MapReduce新旧API的区别以及如何使用API

16、 MapReduce程序打包并在命令行运行

17、 Hadoop Streaming

18、动态增加Hadoop的Slave节点

19、学员动手编写MapReduce程序

第7个主题：分布式内存数据库（介绍当前主流的分布式内存数据库，深入剖析分布式内存库系统的原理与机制）

1、业界主要应用的分布式内存库有哪些

2、分布式内存库的应用情况

a) 大数据非结构化数据的应用场景（TFS）

b) 大数据历史明细查询的应用场景

c) 秒杀高并发的应用场景

d) 实时高并发业务的应用场景

e) 在线实时统计分析的应用场景

3、应用的具体案例

a) 分布式内存库在运营商话单详单查询系统中的应用

b) 分布式内存库在金融行业流水业务查询系统中的应用

c) 分布式内存库在微博自媒体业务中应用

4、分布式内存库的特性

5、 CAP理论

6、 BASE思想

7、 RWN理论

8、分布式关系型内存库

a) MySQL Cluster

9、分布式NoSQL列式内存库

a) HBase

b) Cassandra

c) GemFire

10、分布式文档内存库

a) MongoDB

11、案例：GemFire在实时交易系统12306的使用案例分享

第8个主题：分布式协调器（深入剖析分布式协调器技术原理和实现技术）

1、 Zookeeper介绍

2、 Paxos算法

3、 Paxos 算法应用场景

4、 Zookeeper的数据模型

5、 Zookeeper的节点

6、 Zookeeper的角色

7、 Zookeeper工作原理

8、 Leader选举

9、部署ZooKeeper

10、 Shell操作Zookeeper

11、 Java程序操作Zookeeper

12、 Zookeeper典型使用场景

第9个主题：分布式数据库NoSQL技术（深入剖析分布式NoSQL技术及原理并实操）

1、分布式数据库概述

2、 HBase介绍

3、 HBase的特点

4、 HBase逻辑模型

5、 HBase列族与列

6、 HBase时间戳

7、行式数据库 vs 列式数据库

8、 HBase物理模型

9、数据存储结构:LSM

10、 HBase的REST接口

11、 HBase安装部署

12、 HBase Shell

13、倒排索引

14、开发实践分享：微博

15、 HBase应用

16、 HBase Filter

17、 HBase Coprocessor

第10个主题：分布式NoSQL数据库编程思维训练（老师带领学员用HBase在课上亲自动手完成微博项目的开发过程，使学员掌握分布式NoSQL编程思维方法）

1、 HBase开发环境搭建过程介绍

2、倒排索引

3、案例实战：微博项目

4、微博业务概述

5、微博业务功能说明

6、微博逻辑架构设计

7、微博开发使用的组件

8、 HBase表结构设计

9、基于HBase的微博表结构设计

10、基于HBase的微博项目代码开发

11、基于HBase的微博项目的总结

12、 HBase API剖析

13、 HBase研发案例分享

14、 HBase应用

15、基于HTable的MapReduce分析

16、 HBase Filter

17、 HBase Filters

18、 SingleColumnValueFilter示例

第11个主题：分布式内存数据库库Redis（深入剖析Redis的技术原理）

1、 Redis数据库原理

2、 Redis数据库应用

3、 Redis开发实践（倒排索引）

4、 Redis开发调试

5、 Redis优化

6、 Redis发布订阅机制剖析

7、 Redis集群搭建

8、 Codis介绍

9、 Codis整体设计

10、 Codis架构

11、 Codis组件介绍

第12个主题：分布式文档内存库MongoDB（深入剖析分布式内存库MongoDB文档数据库功能与项目应用案例）

1、什么是MongoDB

2、 MongoDB发展现状与趋势

3、介绍MongoDB基础概念

4、 MongoDB架构剖析

5、 MongoDB文档与集合

6、 MongoDB集群搭建

7、 MongoDB状态监控

8、 MongoDB安全认证

9、 MongoDB备份和恢复

10、 MongoDB Shell操作

11、 MongoDB数据类型

12、文档的增加、修改与删除

13、 Java访问MongoDB文档的调试

14、 MongoDB查询介绍

15、 MongoDB MapReduce统计分析

16、 MongoDB索引

17、 MongoDB性能优化

18、 MongoDB主从复制

19、 MongoDB Sharding分片

20、 MongoDB项目案例：运营商话务数据分析案例剖析

第13个主题：关系型分布式内存库MySQL Cluster（深入剖析关系型分布式内存库MySQL Cluster数据库功能与实现原理）

1、什么是MySQL Cluster

2、 MySQL Cluster发展现状与趋势

3、介绍MySQL Cluster基础概念

4、 MySQL Cluster架构剖析

5、 NDB Cluster存储引擎

6、无共享体系结构

7、管理(MGM)节点

8、数据节点

9、 SQL节点

10、标准MySQL客户端

11、 MySQL Cluster应用场景

12、案例分享：MySQL Cluster在电商平台中的应用

第14个主题：分布式并行计算引擎（深入剖析分布式并行计算引擎实现原理）

1、分布式并行计算引擎概述

2、分布式并行计算引擎原理

3、 Spark介绍

4、 Spark架构剖析

5、 Spark RDD计算模型解析

6、 Spark开发分析

7、 Spark的执行机制解析

8、 Spark的调试与任务分配

9、 Spark与MapReduce对比分析

10、 Spark的容错机制剖析

11、 Spark集群部署

12、 Spark Shell

13、构建与运行Spark应用

14、 Spark RDD操作剖析

15、 Shark基于Spark的综合应用

16、 Spark作业测试解析

17、 Spark的性能调优

18、 Spark生态体系剖析

19、 Spark应用现状

20、 Spark应用优势

21、 Spark应用案例

22、 Spark案例解析

第15个主题：分布式流计算模型（深入剖析分布式流计算模型的实现原理及开发实战）

1、 Spark Streaming概述

2、 Spark Streaming原理剖析

3、 Spark Streaming流数据处理框架介绍

4、 Spark Streaming编程剖析

5、初始化StreamingContext

6、 Discretized Streams (DStreams)

7、输入DStreams与Receivers

8、基于DStreams的Transformations

9、基于DStreams的输出操作

10、 Accumulators和Broadcast Variables

11、 DataFrame和SQL操作

12、 MLlib操作

13、 Caching与Persistence

14、 Checkpointing

15、运行Spark Streaming程序

16、性能调优：减少批处理时间

17、性能调优：设置正确的批处理间隔时间

18、内存调优

19、容错元语

20、实战案例：Spark Streaming与Kafka整合实现数据实时数据分析处理设计与分析

第16个主题：分布式流计算模型（深入剖析分布式流计算模型的实现原理）

1、 Storm基础知识

2、 Storm集群安装

3、 Storm打包运行测试

4、 Storm基本api介绍

5、 Storm Topology的并发度

6、 Storm消息机制原理讲解

7、 Storm DRPC实战讲解

8、 Storm Transaction原理

9、 Strom Trident编程

10、 Storm案例实战

第17个主题： Storm架构原理剖析与开发实战（深入剖析Storm架构原理与实现技术）

1、 Storm基本概念

2、 Storm逻辑架构

3、 Storm Topology的并发度

4、进程拓扑关系

5、 Storm序列化

6、 Storm Topology并发度配置

7、 Storm核心API介绍

8、 Storm核心API编程

9、 Storm的Ack框架

10、 Storm消息机制原理讲解

11、 Spout的Tail特性

12、 Stream Groupings策略

13、实例讲解Grouping策略及并发

14、 Storm在高压力场景下高可靠性实现

15、 Storm记录级容错的基本原理

16、 Storm DRPC整体工作流程

17、 DRPC实现框架

18、 Storm DRPC实战讲解

19、 Storm Windowing原理与实现

20、滑动Windowing

21、滚动Windowing

22、 Join Streams

23、 Storm RESTful API

24、 Storm多语言支持

25、 Storm Transaction原理

26、 Transactional Topology框架功能

27、 Storm事务API及案例分析

28、 Storm事务案例实战

第18个主题： Strom Trident剖析与开发实战（深入剖析Storm Trident实现原理及开发方法）

1、 Strom Trident介绍

2、 Trident API介绍

3、 Strom Trident消息

4、 Strom TridentTopology的构建器

5、 Strom Trident的SpoutNode

6、 Trident Spout类型

7、 Strom Trident的容错Spout

8、 Strom Trident操作与处理节点

9、 Strom Trident中的Bolt

10、 Strom Trident的存储

11、 Strom Trident流的基本操作

12、 Strom Trident中流的交互操作

13、 Strom Trident的执行优化

14、 Strom Trident与DRPC

15、 Strom Trident编程实战

第19个主题：分布式并行计算引擎Impala（分布式计算引擎Impala的工作原理）

1、分布式并行计算引擎概述

2、 Impala介绍

3、 Impala是什么

4、 Impala与Hive、Pig有何不同

5、 Impala与关系数据库有何不同

6、 Impala的限制和未来发展方向

7、运用 Impala Shell

8、 Impala分布式集群部署

9、 Impala分布式架构原理

10、 Impala数据模型

11、 Impala作业基本运行原理

12、 Impala使用注意事项

13、 Impala DDL、DML、SQL、函数

14、 Impala作业资源占用

15、案例：银行在线支付统计的案例

16、 Impala调优可概述

17、 Impala参数调优

18、 Impala SQL调优

19、 Impala分区调优

20、其他常用调优方法

21、数据倾斜处理方法

22、 Impala与Shark、Hive、Pig区别剖析

23、案例：Impala调优案例

第20个主题：如何研发分布式系统？（本主题强调一个好的分布式系统离不开真实的业务需求）

1、深入分析企业业务数据特点

2、 TFS思想的应用

3、事务剖析

4、分布式事务剖析

5、分布式系统的职责分离思想

6、大数据+简单算法

7、精准小数据+复杂算法

第21个主题：分布式系统架构设计（介绍分布式系统架构设计需要遵循原则与设计技巧）

1、 CAP理论

2、 BASE思想

3、日志结构文件系统

4、 RWN理论

5、分布式系统迁移策略

a) 数据迁移

b) 计算迁移

6、冷热分离原则

7、算法优化策略

a) 读取+计算+显示

b) 读取+显示

8、数据序列化

9、 RESTful架构剖析

Hadoop生态系统

首页>公开课程 > IT相关 [返回PC端]

分布式文件操作和存储、分布式数据库、批处理计算模型、并行计算引擎、流计算模型

讲师：尹立庆天数：3天费用：元/人关注：2602

日程安排：

课程大纲：

上一篇: 《“传统企业+互联网”营销转型策略》
下一篇: 《总经理的财务管理》

其他相关公开课程:

关于举办系统架构与详细设计*实践培训班

Oracle高级管理与性能调优*实践培训班

软件需求开发与需求管理

信息安全与网络攻防技术培训班

国际材料数据系统新版IMDS

云计算与大数据处理技术

大数据处理技术 — 基于Hadoop的实战

IT运维与流程化建设ITIL培训班


联系电话：4000504030 24小时热线（微信）： 13262638878（华东） 18311088860（华北） 13380305545（华南） 15821558037（华西）服务投诉：13357915191		线上课程关注公众号

首页>公开课程 > IT相关 [返回PC端]

分布式文件操作和存储、分布式数据库、批处理计算模型、并行计算引擎、流计算模型

讲师：尹立庆天数：3天费用：元/人关注：2602

日程安排：

课程大纲：

上一篇: 《“传统企业+互联网”营销转型策略》 下一篇: 《总经理的财务管理》

其他相关公开课程:

关于举办系统架构与详细设计*实践培训班

Oracle高级管理与性能调优*实践培训班

软件需求开发与需求管理

信息安全与网络攻防技术培训班

国际材料数据系统新版IMDS

云计算与大数据处理技术

大数据处理技术 — 基于Hadoop的实战

IT运维与流程化建设ITIL培训班

上一篇: 《“传统企业+互联网”营销转型策略》
下一篇: 《总经理的财务管理》