图书目录

目 录

项目1  大数据及Hadoop 概述 …………………………………………………………… 1

任务1.1 大数据概述 ……………………………………………………………………… 2

任务1.2 Hadoop 概述 …………………………………………………………………… 5

课后练习 ………………………………………………………………………………… 8

项目2 Hadoop 分布式集群安装及部署 …………………………………………………10

任务2.1 Linux 系统基础环境安装及配置 ………………………………………………11

任务2.2 伪分布式系统安装 ………………………………………………………………22

任务2.3 完全分布系统安装 ………………………………………………………………33

课后练习 ………………………………………………………………………………… 47

项目3 分布式文件系统HDFS ……………………………………………………………49

任务3.1 HDFS 概述 ………………………………………………………………………50

任务3.2 HDFS 命令行客户端 ……………………………………………………………54

课后练习 ………………………………………………………………………………… 62

项目4 分布式计算框架MapReduce ………………………………………………………64

任务4.1 认识MapReduce ………………………………………………………………65

任务4.2 分布式资源调度平台Yarn ………………………………………………………72

课后练习 ………………………………………………………………………………… 77

项目5 分布式协调框架ZooKeeper ………………………………………………………79

任务5.1 认识ZooKeeper …………………………………………………………………80

Hadoop 大数据平台构建

任务5.2 部署ZooKeeper 集群 ……………………………………………………………86

任务5.3 ZooKeeper Shell …………………………………………………………………93

课后练习 ………………………………………………………………………………… 97

项目6 Hadoop 高可用集群 ………………………………………………………………99

任务6.1 认识Hadoop 高可用 ………………………………………………………… 100

任务6.2 部署Hadoop HA 集群 ……………………………………………………… 103

课后练习 ……………………………………………………………………………… 117

项目7 分布式存储数据库HBase ……………………………………………………… 119

任务7.1 初识HBase …………………………………………………………………… 120

任务7.2 部署HBase 集群 ……………………………………………………………… 125

任务7.3 HBase Shell 操作 …………………………………………………………… 131

课后练习 ……………………………………………………………………………… 138

项目8 数据仓库Hive …………………………………………………………………… 140

任务8.1 Hive 简介 ……………………………………………………………………… 141

任务8.2 Hive 安装部署 ………………………………………………………………… 146

任务8.3 Hive 操作 ……………………………………………………………………… 156

任务8.4 Hive 和HBase 整合 ………………………………………………………… 167

课后练习 ……………………………………………………………………………… 170

项目9 数据迁移工具Sqoop …………………………………………………………… 172

任务9.1 部署Sqoop …………………………………………………………………… 173

任务9.2 Sqoop 应用 …………………………………………………………………… 178

课后练习 ……………………………………………………………………………… 186

项目10 日志采集工具Flume …………………………………………………………… 188

任务10.1 认识Flume …………………………………………………………………… 189

任务10.2 Flume 安装部署 ……………………………………………………………… 193

任务10.3 Flume 多点采集数据 ………………………………………………………… 200

课后练习 ……………………………………………………………………………… 205

目 录

V

目 录

项目11 分布式消息队列Kafka ………………………………………………………… 207

任务11.1 认识Kafka …………………………………………………………………… 208

任务11.2 部署Kafka 集群 …………………………………………………………… 212

任务11.3 Kafka 和Flume 整合 ……………………………………………………… 219

课后练习 ……………………………………………………………………………… 221

项目12 内存计算框架Spark …………………………………………………………… 223

任务12.1 认识Spark …………………………………………………………………… 224

任务12.2 部署Spark …………………………………………………………………… 228

课后练习 ……………………………………………………………………………… 234

项目13 内存计算框架Flink …………………………………………………………… 237

任务13.1 认识Flink …………………………………………………………………… 238

任务13.2 部署Flink …………………………………………………………………… 243

课后练习 ……………………………………………………………………………… 255

项目14 大数据平台的管理与监控 ……………………………………………………… 257

任务14.1 大数据平台的管理与监控概述 …………………………………………… 258

任务14.2 Nagios 监控 ………………………………………………………………… 259

任务14.3 Ganglia 监控 ………………………………………………………………… 279

任务14.4 Prometheus 监控 …………………………………………………………… 297

课后练习 ……………………………………………………………………………… 306

参考文献 …………………………………………………………………………………… 308