图书目录

目录

第1篇数据仓库

第1章数据仓库概述

1.1基本概念

1.1.1数据仓库的定义

1.1.2数据仓库与传统数据库

1.2数据仓库的体系结构

1.3数据仓库服务器

1.4多维数据模型

1.5OLAP、OLTP及与数据仓库的关系 

1.6OLAP服务器

课后习题

第2章Hive

2.1Hive技术

2.1.1Hive的基本概念

2.1.2Hive的应用场景

2.1.3Hive与传统数据仓库的对比

2.1.4Hive的优缺点

2.2Hive的功能与架构

2.3Hive部署

2.3.1Hive部署方式

2.3.2基础环境安装

2.3.3安装配置Hive

2.4Hive数据存储模型

2.4.1数据存储结构

2.4.2托管表和外部表

课后习题

第3章HiveQL操作

3.1Hive基本操作

3.1.1数据定义语言

3.1.2数据管理语言

3.1.3数据查询语言

3.2HiveQL实例

课后习题

第2篇数据分析

第4章表格处理

4.1针对表格的操作

4.1.1数据分列

4.1.2使用Ctrl+E提取数据

4.1.3大小写数字转换

4.1.4快速定位缺失值

4.1.5冻结窗格

4.2常用函数

4.2.1数值运算函数

4.2.2字符处理函数

4.2.3逻辑运算函数

4.2.4VLOOKUP

4.2.5时间序列函数

4.3图表

4.3.1生成图表

4.3.2图表的细节修改

课后习题

第5章Python与NumPy

5.1Python简介

5.1.1Anaconda简介

5.1.2Jupyter Notebook简介

5.1.3Python语法简介

5.2NumPy简介

5.2.1初识数组

5.2.2数组的创建

5.2.3数组索引

5.2.4NumPy的常用方法和属性

课后习题

第6章Pandas与Matplotlib

6.1Pandas

6.1.1Pandas中的Series

6.1.2Series的创建

6.1.3Series的索引

6.1.4Series的数据对齐

6.1.5处理空值

6.1.6Pandas中的DataFrame

6.1.7DataFrame的常用属性

6.1.8DataFrame索引

6.1.9DataFrame的对位运算与对齐原则

6.1.10DataFrame处理缺失值

6.1.11DataFrame的常用方法

6.2时间序列

6.2.1生成一个时间序列

6.2.2时间序列的操作

6.2.3read_csv的高级应用

6.3Matplotlib

6.3.1使用Matplotlib画折线图

6.3.2图形详细信息

6.3.3其他图

课后习题

第7章报表开发与设计

7.1报表的类型

7.2FineReport

7.2.1基本功能结构

7.2.2FineReport 特性

7.3开发环境准备

7.4快速开发一个报表

课后习题

第3篇数据挖掘

第8章线性回归与逻辑回归

8.1线性回归

8.1.1线性回归原理

8.1.2损失函数与损失函数的解法

8.1.3正则化与过拟合

8.1.4线性回归的实现与模型评价

8.1.5重要参数和属性

8.2逻辑回归

8.2.1逻辑回归原理

8.2.2逻辑回归的实现方法与模型评价(混淆矩阵)

8.2.3重要参数和调参方法

课后习题

第9章决策树与随机森林

9.1决策树

9.1.1决策树的原理

9.1.2如何建立一棵决策树

9.1.3sklearn中的决策树实现

9.1.4决策树调参

9.1.5决策树的重要属性和方法

9.2回归树

9.2.1回归树的工作原理

9.2.2回归树建树过程

9.2.3回归树的实现

9.3随机森林

9.3.1随机森林工作原理

9.3.2随机森林实现

9.3.3重要参数

9.3.4网格搜索

课后习题

第10章SVM与XGBoost

10.1SVM原理

10.1.1SVM基本概念

10.1.2SVM的损失函数

10.1.3拉格朗日对偶函数

10.1.4核函数

10.1.5软间隔

10.1.6SVM代码实现

10.1.7SVM主要参数

10.2XGBoost原理

10.2.1XGBoost的基本思路

10.2.2XGBoost的构建

10.2.3XGBoost实现回归

10.2.4XGBoost实现分类

10.2.5XGBoost的重要参数

课后习题

第11章聚类

11.1聚类算法

11.1.1KMeans

11.1.2DBSCAN

11.2模型的保存和导入

11.3关联算法

11.3.1Apriori算法

11.3.2协同过滤算法

课后习题

第12章数据预处理、特征选择与降维

12.1数据预处理

12.1.1数据无量纲化

12.1.2缺失值处理

12.1.3编码

12.1.4分段

12.2特征选择

12.2.1过滤法

12.2.2嵌入法

12.2.3包裹法

12.3降维

12.3.1降维与特征选择的区别

12.3.2PCA工作原理

12.3.3PCA实现

课后习题

第13章自然语言处理、知识图谱与神经网络

13.1自然语言处理

13.1.1自然语言处理的定义

13.1.2自然语言处理的作用

13.1.3自然语言识别技术

13.2知识图谱

13.2.1知识图谱的定义

13.2.2知识图谱的作用

13.2.3知识图谱的工具

13.3神经网络

13.3.1神经网络的定义

13.3.2神经网络的作用

13.3.3神经网络实现工具

课后习题