前言
本书旨在帮助读者全面了解大数据技术和Spark应用,系统地介绍了大数据技术的核心概念、关键技术和工具,并深入探讨了Spark在大数据处理和分析中的应用。通过阅读本书,读者将获得搭建大数据处理环境,利用Hadoop、Spark等工具进行数据处理和分析的实际能力。
全书9章内容介绍如下。
第1章 大数据技术概述。介绍大数据技术的背景和发展,包括大数据的概念、关键技术和代表性工具,为读者建立起对大数据技术的整体认识。
第2章 基于Docker的Hadoop集群搭建。详细介绍如何使用Docker构建Hadoop集群。从Docker的基本概念开始,逐步引导读者完成CentOS镜像的下载、容器的创建与配置,并实现基于Docker的Hadoop集群的安装和验证。
第3章 大数据存储与查询。详细讲解HDFS和HBase的基础及应用,涉及基本概念、架构原理和实际操作,如HDFS Shell和Python API使用,以及HBase的部署、操作和数据查询。
第4章 基于Docker的Spark集群搭建与使用。重点介绍如何安装和配置Spark集群。包括Scala和Spark的下载与安装、环境变量的配置,以及集群的启动、应用程序的提交和Web监控页面的使用。
第5章 Spark概述。解释什么是Spark及其在大数据处理中的重要性; 探讨了Spark的生态系统、架构和运行原理,帮助读者全面了解Spark的核心概念和内部工作原理。
第6章 Spark RDD。详细解析RDD的基础概念、特性、依赖关系和运行机制,讲解RDD的创建方法、转换与动作操作,最后通过案例分析和文件操作加深理解。
第7章 Spark SQL。讨论Spark SQL的基本概念和执行原理。介绍如何创建和操作DataFrame,包括字段计算、条件查询、数据排序、数据去重和数据分组统计,还包括数据库的读写操作和RDD与DataFrame之间的相互转换。
第8章 Pandas API on Spark编程。从基础概念、数据类型和结构入手,详细介绍其读写功能、索引处理、常用方法及数据分组等操作。探讨Pandas与Spark DataFrame之间的转换技巧,并通过酒店预订需求分析案例,展示数据处理和用户数据探索的实际应用。
第9章 PySpark ML。介绍Spark ML机器学习库的基本概念和使用方法。包括基本数据类型的介绍、基本统计分析的实现、机器学习流水线的构建、特征工程的应用,以及分类、回归、聚类和推荐模型的训练、评估和参数调优。
本书巧妙地融合了Pandas on Spark的前沿技术和Spark ML的实用应用,为读者搭建了一个理论与实践交互的学习平台,打通了大数据与机器学习领域的深度理解之路。本书创新性地引入Pandas on Spark,为Python开发者提供了处理大规模数据的强大工具,极大地降低了大数据处理的学习门槛。在内容安排上,本书不仅仅满足于传授理论知识,还通过一系列精心设计的实验和实际案例,引领读者实践,从而掌握每项技术的精髓,提升解决复杂问题的能力。这样的实践经验,确保读者在吸收最新技术知识的同时,能够全方位地提升自己在数据分析领域的实际操作能力和竞争力。
全书由三亚学院周显春负责内容规划和统稿编写,肖衡、谭瑞梅进行修订,共同实现特色课程立体化教学资源建设项目。还有很多教师和学生对本书提出了许多宝贵意见,在此一并向他们表示衷心的感谢。本书的出版得到了三亚学院产品思维导向特色课程改革项目(SYJKCF2023147)、2022年度海南省高等学校教育教学改革研究一般项目(Hnjg2022102)、三亚学院学科特色课程群试点建设项目(SYJZKXK202315)、三亚学院优势专业建设项目(SYZUS202203)、三亚学院一流本科专业特色建设资助项目(SYZZZ202212)的资助。
因编者水平有限,书中难免存在不足之处,恳请读者批评指正。
作者2025年3月