目 录
项目1 大数据及Hadoop 概述 …………………………………………………………… 1
任务1.1 大数据概述 ……………………………………………………………………… 2
任务1.2 Hadoop 概述 …………………………………………………………………… 5
课后练习 ………………………………………………………………………………… 8
项目2 Hadoop 分布式集群安装及部署 …………………………………………………10
任务2.1 Linux 系统基础环境安装及配置 ………………………………………………11
任务2.2 伪分布式系统安装 ………………………………………………………………22
任务2.3 完全分布系统安装 ………………………………………………………………33
课后练习 ………………………………………………………………………………… 47
项目3 分布式文件系统HDFS ……………………………………………………………49
任务3.1 HDFS 概述 ………………………………………………………………………50
任务3.2 HDFS 命令行客户端 ……………………………………………………………54
课后练习 ………………………………………………………………………………… 62
项目4 分布式计算框架MapReduce ………………………………………………………64
任务4.1 认识MapReduce ………………………………………………………………65
任务4.2 分布式资源调度平台Yarn ………………………………………………………72
课后练习 ………………………………………………………………………………… 77
项目5 分布式协调框架ZooKeeper ………………………………………………………79
任务5.1 认识ZooKeeper …………………………………………………………………80
Hadoop 大数据平台构建
Ⅳ
任务5.2 部署ZooKeeper 集群 ……………………………………………………………86
任务5.3 ZooKeeper Shell …………………………………………………………………93
课后练习 ………………………………………………………………………………… 97
项目6 Hadoop 高可用集群 ………………………………………………………………99
任务6.1 认识Hadoop 高可用 ………………………………………………………… 100
任务6.2 部署Hadoop HA 集群 ……………………………………………………… 103
课后练习 ……………………………………………………………………………… 117
项目7 分布式存储数据库HBase ……………………………………………………… 119
任务7.1 初识HBase …………………………………………………………………… 120
任务7.2 部署HBase 集群 ……………………………………………………………… 125
任务7.3 HBase Shell 操作 …………………………………………………………… 131
课后练习 ……………………………………………………………………………… 138
项目8 数据仓库Hive …………………………………………………………………… 140
任务8.1 Hive 简介 ……………………………………………………………………… 141
任务8.2 Hive 安装部署 ………………………………………………………………… 146
任务8.3 Hive 操作 ……………………………………………………………………… 156
任务8.4 Hive 和HBase 整合 ………………………………………………………… 167
课后练习 ……………………………………………………………………………… 170
项目9 数据迁移工具Sqoop …………………………………………………………… 172
任务9.1 部署Sqoop …………………………………………………………………… 173
任务9.2 Sqoop 应用 …………………………………………………………………… 178
课后练习 ……………………………………………………………………………… 186
项目10 日志采集工具Flume …………………………………………………………… 188
任务10.1 认识Flume …………………………………………………………………… 189
任务10.2 Flume 安装部署 ……………………………………………………………… 193
任务10.3 Flume 多点采集数据 ………………………………………………………… 200
课后练习 ……………………………………………………………………………… 205
目 录
V
目 录
项目11 分布式消息队列Kafka ………………………………………………………… 207
任务11.1 认识Kafka …………………………………………………………………… 208
任务11.2 部署Kafka 集群 …………………………………………………………… 212
任务11.3 Kafka 和Flume 整合 ……………………………………………………… 219
课后练习 ……………………………………………………………………………… 221
项目12 内存计算框架Spark …………………………………………………………… 223
任务12.1 认识Spark …………………………………………………………………… 224
任务12.2 部署Spark …………………………………………………………………… 228
课后练习 ……………………………………………………………………………… 234
项目13 内存计算框架Flink …………………………………………………………… 237
任务13.1 认识Flink …………………………………………………………………… 238
任务13.2 部署Flink …………………………………………………………………… 243
课后练习 ……………………………………………………………………………… 255
项目14 大数据平台的管理与监控 ……………………………………………………… 257
任务14.1 大数据平台的管理与监控概述 …………………………………………… 258
任务14.2 Nagios 监控 ………………………………………………………………… 259
任务14.3 Ganglia 监控 ………………………………………………………………… 279
任务14.4 Prometheus 监控 …………………………………………………………… 297
课后练习 ……………………………………………………………………………… 306
参考文献 …………………………………………………………………………………… 308