





定价:59.8元
印次:1-1
ISBN:9787302687436
出版日期:2025.05.01
印刷日期:2025.04.28
图书责编:黄芝
图书分类:教材
"本书以Python为基础,深入讲解HDFS分布式文件系统和PySpark3编程。全书共9章,内容包括Docker环境下Hadoop与Spark的配置、HDFS操作技巧、RDD编程方法、Spark SQL应用、Spark架构及运行机制、Pandas on Spark使用及Spark ML编程实践。本书通过实际操作案例,帮助读者掌握Hadoop和PySpark的环境搭建与应用编程,附带丰富的教学资源,包括教案、教学课件、练习题、源代码、数据集及核心知识点视频讲解及实验指导,为读者提供强大支持。 本书适合作为全国高等学校计算机、软件工程、数据科学与大数据技术、人工智能等专业的教材,同时对大数据应用开发者和技术从业者亦有参考价值。 "
周显春,男,74年出生,副教授,大数据高级分析师,CCF会员,现任全国高等学校计算机基础教育研究会(全国一级学会)数据科学专委会副秘书长、三亚学院智能工程系副主任。自2008年以来,一直从事计算机科学与技术、数据科学与大数据技术体系课程的教学工作。同时,从事数据挖掘及网络安全的科研工作。先后讲授了操作系统、数据采集与预处理、大数据技术原理与应用、数据科学与应用等课程,并取得了良好的教学效果。主持过海南省自然科学基金项目1项,参与了3项,主持海南省教育厅级教改项目2项,参与了1项;还主持过校级教学改革项目6项,参与了3项,获得了海南省教学成果二等奖1项(排名第四)。此外,还发表了10多篇与教学改革相关的论文,并指导学生获得了5项省级及以上奖项以及5项创新创业项目。
前言 本书旨在帮助读者全面了解大数据技术和Spark应用,系统地介绍了大数据技术的核心概念、关键技术和工具,并深入探讨了Spark在大数据处理和分析中的应用。通过阅读本书,读者将获得搭建大数据处理环境,利用Hadoop、Spark等工具进行数据处理和分析的实际能力。 全书9章内容介绍如下。 第1章 大数据技术概述。介绍大数据技术的背景和发展,包括大数据的概念、关键技术和代表性工具,为读者建立起对大数据技术的整体认识。 第2章 基于Docker的Hadoop集群搭建。详细介绍如何使用Docker构建Hadoop集群。从Docker的基本概念开始,逐步引导读者完成CentOS镜像的下载、容器的创建与配置,并实现基于Docker的Hadoop集群的安装和验证。 第3章 大数据存储与查询。详细讲解HDFS和HBase的基础及应用,涉及基本概念、架构原理和实际操作,如HDFS Shell和Python API使用,以及HBase的部署、操作和数据查询。 第4章 基于Docker的Spark集群搭建与使用。重点介绍如何安装和配置Spark集群。包括Scala和Spark的下载与安装、环境变量的配置,以及集群的启动、应用程序的提交和Web监控页面的使用。 第5章 Spark概述。解释什么是Spark及其在大数据处理中的重要性; 探讨了Spark的生态系统、架构和运行原理,帮助读者全面了解Spark的核心概念和内部工作原理。 第6章 Spark RDD。详细解析RDD的基础概念、特性、依赖关系和运行机制,讲解RDD的创建方法、转换与动作操...
目录
下载源码
第1章大数据技术概述
1.1大数据技术的发展背景
1.2大数据核心概念和关键技术
1.2.1大数据核心概念
1.2.2大数据关键技术
1.3代表性大数据分布式处理框架
1.3.1Hadoop
1.3.2Spark
1.3.3Flink
1.3.4常见计算框架的性能对比
本章小结
习题1
实验1Linux常用命令的使用
第2章基于Docker的Hadoop集群搭建
2.1Docker基础知识
2.1.1Docker的核心概念
2.1.2Docker的常见操作
2.1.3Docker网络
2.2Docker环境的准备
2.2.1CentOS镜像下载
2.2.2创建与访问容器
2.3Hadoop集群的搭建
2.3.1集群部署模式
2.3.2集群规划
2.3.3前置软件的安装和配置
2.3.4Hadoop的安装与配置
2.4集群的运行与验证
2.4.1集群的启动与关闭
2.4.2Web页面监控
本章小结
习题2
实验2基于Docker的Hadoop集群搭建
第3章大数据存储与查询
3.1HDFS概述
3.2HDFS运行架构与原理
3.2.1存储架构
3.2.2读写原理
3.3HDFS Shell操作
3.3.1HDFS Shell介绍
3.3.2HDFS Shell常用操作实践
3.4H...