图书目录

目录

第1章大数据概述

1.1大数据的研究背景

1.2大数据的定义及其技术特点

1.2.1大数据的定义

1.2.2大数据的基本特点

1.2.3典型的大数据处理需求与计算特征

1.3大数据处理的主要技术特点与难点

1.4研究大数据的意义

1.5本章小结

第2章Hadoop简介及安装部署

2.1Hadoop简介及生态体系

2.2Hadoop集群架构

2.3Hadoop集群运行环境搭建

2.3.1Hadoop安装配置过程

2.3.2验证Hadoop的安装

2.4本章小结

第3章HDFS

3.1相关基本概念

3.2HDFS存储架构

3.2.1HDFS写入流程

3.2.2HDFS读取流程

3.3HDFS的优点与缺点

3.3.1HDFS的优点

3.3.2HDFS的缺点

3.4HDFS Shell常用命令

3.5HDFS的Java API

3.6本章小结

第4章MapReduce计算框架

4.1MapReduce核心思想

4.2MapReduce的工作原理

4.3MapReduce的运行机制

4.4MapReduce数据本地化

4.5MapReduce编程

4.5.1MapReduce运行模式

4.5.2MapReduce编程组件与数据类型

4.6MapReduce编程示例

4.6.1单词计数

4.6.2倒排索引

4.7本章小结

第5章Hive数据仓库

5.1Hive概述

5.1.1Hive简介

5.1.2Hive的架构

5.1.3Hive的优缺点

5.2Hive的安装

5.2.1安装MySQL

5.2.2安装Hive

5.3Hive数据库相关操作

5.3.1Hive的数据类型

5.3.2Hive基础SQL语法

5.4本章小结

第6章HBase分布式数据库

6.1HBase概述

6.1.1HBase的架构

6.1.2HBase的特点

6.1.3HBase数据存储方式

6.1.4HBase寻址机制

6.2HBase的安装

6.3HBase数据模型

6.4HBase的Shell操作

6.5HBase常用的Java API及示例程序

6.5.1HBase常用的Java API

6.5.2程序示例

6.6本章小结

第7章Spark基础

7.1Spark概述

7.1.1Spark的主要特点

7.1.2Spark生态系统

7.1.3Spark相对于Hadoop MapReduce的优势

7.2Spark的安装

7.2.1Spark的部署方式

7.2.2Spark的安装

7.3Spark运行架构与原理

7.4Spark运行流程

7.5本章小结

第8章Spark RDD弹性分布式数据集

8.1RDD的设计与运行原理

8.1.1RDD的概念

8.1.2RDD的分区

8.1.3RDD的依赖关系

8.1.4RDD在Spark中的运行流程

8.1.5RDD容错机制

8.2RDD API编程

8.2.1RDD的创建

8.2.2RDD的操作

8.3程序示例: 倒排索引

8.4本章小结

第9章Spark SQL

9.1Spark SQL概述

9.1.1Spark SQL简介

9.1.2Spark SQL的架构 

9.2DataFrame

9.2.1DataFrame简介

9.2.2DataFrame的创建

9.2.3DataFrame的常用操作

9.3Dataset

9.4Spark SQL编程

9.4.1DataFrame操作

9.4.2Spark SQL 读写MySQL数据库

9.4.3Spark SQL 读写Hive

9.5本章小结

第10章 Spark Streaming实时计算框架

10.1Spark Streaming概述

10.1.1流数据和流计算

10.1.2Spark Streaming简介

10.1.3DStream简介

10.2DStream编程

10.2.1DStream转换操作

10.2.2DStream输出操作相关的方法

10.3DStream编程示例

10.3.1DStream编程基本步骤——文件流

10.3.2无状态转换操作

10.3.3有状态转换操作

10.3.4输出操作

10.4本章小结

第11章Spark Streaming与Flume、Kafka的整合

11.1Flume简介及安装

11.1.1Flume简介

11.1.2Flume的安装

11.2Kafka简介及安装

11.2.1Kafka简介

11.2.2Kafka的安装

11.3Flume与Kafka的区别和侧重点

11.4Spark Streaming与Flume、Kafka的整合与开发

11.5本章小结

第12章Spark MLlib机器学习

12.1机器学习的概念

12.1.1机器学习的定义

12.1.2机器学习的分类

12.2MLlib简介

12.3Spark MLlib的数据类型

12.3.1本地向量

12.3.2标注点

12.3.3本地矩阵

12.4Spark MLlib机器学习示例

12.4.1特征抽取——TFIDF

12.4.2分类与回归——线性回归

12.4.3分类与回归——逻辑回归

12.4.4协同过滤——电影推荐

12.5本章小结

第13章实战案例——分布式优惠券后台应用系统 

13.1系统简介

13.2整体架构

13.3表结构设计

13.4系统实现

13.4.1商户投放子系统

13.4.2用户消费子系统

13.5系统运行测试

13.5.1启动系统

13.5.2商户投放子系统测试

13.5.3用户消费子系统测试

13.6本章小结

第14章实战案例——新闻话题实时统计分析系统

14.1系统简介

14.2系统总体架构

14.3表结构设计

14.4系统实现

14.4.1模拟日志生成程序

14.4.2Flume配置

14.4.3配置Kafka

14.4.4Spark Streaming开发

14.4.5WebSocket和前端界面开发

14.5系统运行测试

14.6本章小结

参考文献