图书前言

前 言

在信息化浪潮席卷全球的今天,大数据已经成为推动社会进步和科技创新的重要

技术。大数据不仅改变了人们的生活方式,而且对各行各业产生了深远的影响。在这

样的背景下,掌握大数据平台的构建技术,已经成了信息科技领域从业者不可或缺的

一项技能。

本书采用项目式编写模式,以大数据生态体系为基础,详细阐述了大数据平台构

建的全过程。全书共分14 个项目,包括大数据及Hadoop 概述、Hadoop 分布式集群

安装及部署、分布式文件系统HDFS、分布式计算框架MapReduce、分布式协调框架

ZooKeeper、Hadoop 高可用集群、分布式存储数据库HBase、数据仓库Hive、数据迁移

工具Sqoop、日志采集工具Flume、分布式消息队列Kafka、内存计算框架Spark、内

存计算框架Flink、大数据平台的管理与监控。内容涉及Hadoop 伪分布模式、集群模

式、高可用模式的搭建,使用ZooKeeper、HBase、Hive 等组件搭建大数据平台,使用

Nagios、Ganglia、Prometheus 和Grafana 工具对大数据平台进行高效运维。

本书内容注重理论与实践相结合,通过丰富的实例解析和项目实战演练,帮助读

者提升解决实际问题的能力,培养读者独立构建和运维大数据平台的技能。同时,各

个项目的设计环节也包括了大数据平台构建中的一些新特性,可以拓宽学习者视野,

使其适应未来数字化、智能化社会的需求。

本书还配套了包含平台搭建、平台运维、案例分析等内容的微课视频,能够直观

地展示操作过程和技术细节;提供多种类型、多种规模的数据集,供读者在平台上进

行数据处理、分析和挖掘实践,以加深对大数据处理流程的理解。

本书为校企合作开发教材,由孟瑞军、哈里白和高荣贵任主编,宋海燕任副主

编。孟瑞军编写了项目10、项目11 和项目14,哈里白编写了项目1 至项目4,高

荣贵编写了项目7 至项目9,宋海燕编写了项目5、项目6、项目12 和项目13,并整

理了课后习题参考答案,江苏一道云科技发展有限公司在本书的编写过程中提供了大

Hadoop 大数据平台构建

量的技术支持和真实运维案例。

由于技术和行业的发展日新月异,加之编者水平有限,书中难免存在疏漏之处,

恳请广大读者批评、指正。感谢在本书编写及出版过程中提供帮助、支持和鼓励的领

导、同事及传智播客、尚硅谷的企业工程师们。我们将持续更新和完善本书内容,以

期更好地服务于大数据教育与实践的发展。

编 者

2024 年4 月

习题参考答案工具安装包