





定价:49.9元
印次:1-5
ISBN:9787302591818
出版日期:2022.01.01
印刷日期:2024.01.23
图书责编:陈景辉
图书分类:教材
本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。
于海浩,男,1974年1月生,高级工程师,黑龙江工程学院计算机学院教师,主讲大数据实践和人工智能课程,研究方向为大数据处理与挖掘,深度学习。主持或参与国家、省部级、厅局级项目6项。以第一作者发表论文10余篇,作为高级项目经理和企业管理者组织了黑龙江省电力营销系统、地下管廊运维监管平台、智慧城管、城镇职工医疗系统的项目管理工作,有任企业技术总监的职务经历。
前言 近年来,随着大数据底层设施的逐渐成熟,大数据技术开始结合具体行业,向行业应用延伸。围绕数据资源、基础硬件、通用软件等方面的大数据产业正在逐渐形成。各行各业对大数据人才的需求也日益增强。 鉴于此,国内外一些高校先后开设“数据科学与大数据”专业,旨在培养具备大数据技术的高级人才。 为满足相关技术人员和高校师生学习大数据技术基础知识,我们在总结近几年大数据技术基础知识和应用案例的基础上,以理论结合实践的方式将大数据基本概念、大数据开发技术与实际应用相结合,精心组织并完成了本书的编写。 本书主要内容 本书为一本夯实大数据基础知识,以实际应用为导向的书籍,非常适合初、中级学习大数据技术的读者。读者可以在短时间内学习本书中介绍的所有知识,掌握大数据技术的开发方法。 作为一本关于大数据技术的入门书籍,本书共有14章。 第1章主要介绍了大数据的研究背景、大数据的定义及其技术特点以及大数据处理的主要技术特点与难点,最后阐述了研究大数据的意义。 第2章主要介绍了Hadoop的起源、生态体系和集群架构,对Hadoop的安装配置进行了详细的讲解。 第3章主要介绍了Hadoop中非常重要的分布式存储文件系统——HDFS,分析了HDFS的存储架构以及常用Shell命令和Java API,并且通过一个具体案例实现了HDFS的Java API的编程。 第4章主要介绍了Hadoop的分布式计算框架MapReduce,分析了MapReduce的核心思想、工作原理、运行机制以及MapReduce的核心过程Shuffle,最后通过单词计数和倒排索引两个案例详细分析MapReduce的...
目录
第1章大数据概述
1.1大数据的研究背景
1.2大数据的定义及其技术特点
1.2.1大数据的定义
1.2.2大数据的基本特点
1.2.3典型的大数据处理需求与计算特征
1.3大数据处理的主要技术特点与难点
1.4研究大数据的意义
1.5本章小结
第2章Hadoop简介及安装部署
2.1Hadoop简介及生态体系
2.2Hadoop集群架构
2.3Hadoop集群运行环境搭建
2.3.1Hadoop安装配置过程
2.3.2验证Hadoop的安装
2.4本章小结
第3章HDFS
3.1相关基本概念
3.2HDFS存储架构
3.2.1HDFS写入流程
3.2.2HDFS读取流程
3.3HDFS的优点与缺点
3.3.1HDFS的优点
3.3.2HDFS的缺点
3.4HDFS Shell常用命令
3.5HDFS的Java API
3.6本章小结
第4章MapReduce计算框架
4.1MapReduce核心思想
4.2MapReduce的工作原理
4.3MapReduce的运行机制
4.4MapReduce数据本地化
4.5MapReduce编程
4.5.1MapReduce运行模式
4.5.2MapReduce编程组件与数据类型
4.6MapReduce编程示例
4.6.1单词计数
4.6.2倒排索引
4.7本章小结
... 查看详情
(2)实战案例丰富,涵盖18 个完整项目案例和2个综合案例,综合案例可以加深对本书所学的知识点的理解和掌握。
(3)代码详尽,避免对 API 的形式展示,规避重复代码。
(4)语言简明易懂,由浅入深带你学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。
查看详情