目录
第1篇数据仓库
第1章数据仓库概述
1.1基本概念
1.1.1数据仓库的定义
1.1.2数据仓库与传统数据库
1.2数据仓库的体系结构
1.3数据仓库服务器
1.4多维数据模型
1.5OLAP、OLTP及与数据仓库的关系
1.6OLAP服务器
课后习题
第2章Hive
2.1Hive技术
2.1.1Hive的基本概念
2.1.2Hive的应用场景
2.1.3Hive与传统数据仓库的对比
2.1.4Hive的优缺点
2.2Hive的功能与架构
2.3Hive部署
2.3.1Hive部署方式
2.3.2基础环境安装
2.3.3安装配置Hive
2.4Hive数据存储模型
2.4.1数据存储结构
2.4.2托管表和外部表
课后习题
第3章HiveQL操作
3.1Hive基本操作
3.1.1数据定义语言
3.1.2数据管理语言
3.1.3数据查询语言
3.2HiveQL实例
课后习题
第2篇数据分析
第4章表格处理
4.1针对表格的操作
4.1.1数据分列
4.1.2使用Ctrl+E提取数据
4.1.3大小写数字转换
4.1.4快速定位缺失值
4.1.5冻结窗格
4.2常用函数
4.2.1数值运算函数
4.2.2字符处理函数
4.2.3逻辑运算函数
4.2.4VLOOKUP
4.2.5时间序列函数
4.3图表
4.3.1生成图表
4.3.2图表的细节修改
课后习题
第5章Python与NumPy
5.1Python简介
5.1.1Anaconda简介
5.1.2Jupyter Notebook简介
5.1.3Python语法简介
5.2NumPy简介
5.2.1初识数组
5.2.2数组的创建
5.2.3数组索引
5.2.4NumPy的常用方法和属性
课后习题
第6章Pandas与Matplotlib
6.1Pandas
6.1.1Pandas中的Series
6.1.2Series的创建
6.1.3Series的索引
6.1.4Series的数据对齐
6.1.5处理空值
6.1.6Pandas中的DataFrame
6.1.7DataFrame的常用属性
6.1.8DataFrame索引
6.1.9DataFrame的对位运算与对齐原则
6.1.10DataFrame处理缺失值
6.1.11DataFrame的常用方法
6.2时间序列
6.2.1生成一个时间序列
6.2.2时间序列的操作
6.2.3read_csv的高级应用
6.3Matplotlib
6.3.1使用Matplotlib画折线图
6.3.2图形详细信息
6.3.3其他图
课后习题
第7章报表开发与设计
7.1报表的类型
7.2FineReport
7.2.1基本功能结构
7.2.2FineReport 特性
7.3开发环境准备
7.4快速开发一个报表
课后习题
第3篇数据挖掘
第8章线性回归与逻辑回归
8.1线性回归
8.1.1线性回归原理
8.1.2损失函数与损失函数的解法
8.1.3正则化与过拟合
8.1.4线性回归的实现与模型评价
8.1.5重要参数和属性
8.2逻辑回归
8.2.1逻辑回归原理
8.2.2逻辑回归的实现方法与模型评价(混淆矩阵)
8.2.3重要参数和调参方法
课后习题
第9章决策树与随机森林
9.1决策树
9.1.1决策树的原理
9.1.2如何建立一棵决策树
9.1.3sklearn中的决策树实现
9.1.4决策树调参
9.1.5决策树的重要属性和方法
9.2回归树
9.2.1回归树的工作原理
9.2.2回归树建树过程
9.2.3回归树的实现
9.3随机森林
9.3.1随机森林工作原理
9.3.2随机森林实现
9.3.3重要参数
9.3.4网格搜索
课后习题
第10章SVM与XGBoost
10.1SVM原理
10.1.1SVM基本概念
10.1.2SVM的损失函数
10.1.3拉格朗日对偶函数
10.1.4核函数
10.1.5软间隔
10.1.6SVM代码实现
10.1.7SVM主要参数
10.2XGBoost原理
10.2.1XGBoost的基本思路
10.2.2XGBoost的构建
10.2.3XGBoost实现回归
10.2.4XGBoost实现分类
10.2.5XGBoost的重要参数
课后习题
第11章聚类
11.1聚类算法
11.1.1KMeans
11.1.2DBSCAN
11.2模型的保存和导入
11.3关联算法
11.3.1Apriori算法
11.3.2协同过滤算法
课后习题
第12章数据预处理、特征选择与降维
12.1数据预处理
12.1.1数据无量纲化
12.1.2缺失值处理
12.1.3编码
12.1.4分段
12.2特征选择
12.2.1过滤法
12.2.2嵌入法
12.2.3包裹法
12.3降维
12.3.1降维与特征选择的区别
12.3.2PCA工作原理
12.3.3PCA实现
课后习题
第13章自然语言处理、知识图谱与神经网络
13.1自然语言处理
13.1.1自然语言处理的定义
13.1.2自然语言处理的作用
13.1.3自然语言识别技术
13.2知识图谱
13.2.1知识图谱的定义
13.2.2知识图谱的作用
13.2.3知识图谱的工具
13.3神经网络
13.3.1神经网络的定义
13.3.2神经网络的作用
13.3.3神经网络实现工具
课后习题
