图书目录

目录

第1章数据仓库的概念与体系结构

1.1数据仓库的兴起

1.1.1数据管理技术的发展

1.1.2数据仓库的萌芽

1.2数据仓库的基本概念

1.2.1元数据

1.2.2数据粒度

1.2.3数据模型

1.2.4ETL

1.2.5数据集市

1.3数据仓库的特点与组成

1.3.1数据仓库的特点

1.3.2数据仓库的组成

1.4数据仓库的体系结构

1.4.1传统数据仓库的体系结构

1.4.2传统数据仓库系统在大数据时代所面临的挑战

1.4.3大数据时代的数据仓库

小结

习题

第2章数据

2.1数据的概念与内容

2.2数据属性与数据集

2.3数据预处理

2.3.1数据预处理的意义

2.3.2数据清洗

2.3.3数据集成

2.3.4数据变换

2.3.5数据归约

小结

习题

第3章数据存储

3.1数据仓库的数据模型

3.1.1数据仓库的概念模型

3.1.2数据仓库的逻辑模型

3.1.3数据仓库的物理模型

3.2元数据存储

3.2.1元数据的概念

3.2.2元数据的分类方法

3.2.3元数据的管理

3.2.4元数据的作用

3.3数据集市

3.3.1数据集市的概念

3.3.2数据集市的类型

3.4大数据存储技术

3.4.1传统数据库管理系统

3.4.2NoSQL数据库

小结

习题

第4章OLAP与数据立方体

4.1OLAP的概念

4.1.1OLAP的含义与基本概念

4.1.2OLAP出现的原因——发展背景

4.1.3OLAP参考标准——12条准则

4.2多维分析操作

4.2.1多维分析操作的定义

4.2.2多维分析操作的必要性

4.2.3多维分析操作的内容

4.2.4多维分析操作实例展现

4.3基本数据模型

4.3.1基本数据模型的形式

4.3.2MOLAP的定义、架构及优劣势分析

4.3.3ROLAP的定义、架构及优劣势分析

4.3.4MOLAP与ROLAP的比较

4.3.5HOLAP的形成

4.4数据立方体的基本概念

4.4.1数据立方体是什么

4.4.2冰山立方体和闭立方体

4.4.3立方体外壳相关介绍

4.5数据立方体的计算方法

4.5.1数据立方体计算的一般策略

4.5.2完全立方体计算的多路数组策略

4.5.3从顶向下计算冰山立方体

4.5.4使用StarCubing算法计算冰山立方体

小结

习题

第5章数据挖掘基础

5.1数据挖掘的兴起

5.1.1数据挖掘的发展历程

5.1.2数据挖掘概述

5.1.3大规模数据挖掘

5.2数据挖掘的任务

5.2.1关联分析

5.2.2聚类分析

5.2.3分类分析

5.2.4回归分析

5.2.5相关分析

5.2.6异常检测

5.3数据挖掘的流程

5.3.1数据挖掘对象

5.3.2数据挖掘分类

5.3.3知识发现过程

小结

习题

第6章关联规则算法

6.1关联规则的概念和分类

6.1.1关联规则的概念

6.1.2关联规则的定义

6.1.3关联规则分类

6.1.4关联规则实现步骤

6.2Apriori算法

6.2.1Apriori定律

6.2.2Apriori算法步骤

6.2.3Apriori算法演示

6.2.4Apriori算法的特点

6.3FPGrowth算法

6.3.1FPGrowth算法概述

6.3.2FPGrowth算法步骤

6.3.3FPGrowth算法演示

6.4挖掘算法的进阶算法USpan*

6.5实验

6.5.1使用Weka进行Apriori算法挖掘

6.5.2基于Python的Apriori简单实现

小结

习题

第7章分类

7.1分类的基本知识

7.1.1分类的概念

7.1.2分类的评价标准

7.1.3分类的主要方法

7.2KNN分类

7.2.1KNN算法描述

7.2.2KNN算法的实现

7.3决策树分类

7.3.1决策树算法概述

7.3.2决策树的生成

7.3.3决策树中规则的提取

7.3.4ID3算法

7.3.5C4.5算法

7.3.6蒙特卡罗树搜索算法

7.4SVM预测

7.4.1线性可分SVM

7.4.2线性不可分SVM

7.4.3SVM算法的实现

小结

习题

第8章统计分析

8.1回归分析

8.1.1一元线性回归

8.1.2多元线性回归

8.1.3非线性回归

8.2EM算法

8.2.1EM算法的引入

8.2.2EM算法的导出

8.2.3EM算法的收敛性

8.3贝叶斯分类

8.3.1贝叶斯原理

8.3.2朴素贝叶斯分类

8.3.3贝叶斯信念网络

8.3.4贝叶斯网络应用

8.4实验

8.4.1使用PyCharm进行一元线性回归分析

8.4.2使用PyCharm进行多元线性回归分析

8.4.3使用Weka实现朴素贝叶斯

小结

习题

第9章神经网络

9.1神经网络概述与定义

9.1.1神经网络概述

9.1.2神经网络学习过程

9.2限制玻耳兹曼机

9.2.1RBM的定义

9.2.2RBM的学习过程

9.2.3RBM的能量模型

9.3反向传播神经网络

9.3.1反向传播算法

9.3.2反向传播算法的改进

9.3.3激活函数选择

9.4卷积神经网络

9.4.1卷积神经网络定义与结构

9.4.2卷积、池化、全连接

9.4.3CNN两个特点: 空间排列与权重共享

9.5循环神经网络

9.5.1循环神经网络概述

9.5.2LSTM解析

9.5.3循环神经网络典型应用介绍

小结

习题

第10章聚类分析

10.1聚类分析概述

10.1.1聚类分析的定义

10.1.2聚类分析的要求

10.1.3聚类方法的分类

10.2差异度的计算方法

10.2.1聚类算法中的数据结构

10.2.2区间标度变量及其差异度计算

10.2.3二元变量的差异度计算

10.2.4标称变量的差异度计算

10.2.5序数型变量的差异度计算

10.2.6混合类型变量的差异度计算

10.3基于分割的聚类方法

10.3.1分割聚类方法的描述

10.3.2k均值算法

10.3.3PAM算法

10.3.4CLARA和CLARANS算法

10.4基于密度的聚类方法

10.4.1基于密度的聚类方法描述

10.4.2DBSCAN算法

10.4.3OPTICS算法

10.5谱聚类方法

10.5.1谱聚类描述

10.5.2谱聚类的步骤

10.5.3谱聚类的优点

10.6实验

10.6.1k均值聚类算法实现

10.6.2利用Weka平台实现k均值聚类分析

10.6.3DBSCAN聚类算法

小结

习题

第11章非结构化数据挖掘

11.1文本数据挖掘

11.1.1文本挖掘的定义

11.1.2文本分类

11.1.3文本分类与聚类

11.1.4文本检索

11.1.5文本相似度分析

11.2Web数据挖掘

11.2.1Web数据挖掘的分类

11.2.2Web数据挖掘的应用

11.3实验: SimHash算法文本去重

小结

习题

第12章知识图谱

12.1知识图谱的构建

12.1.1知识图谱的概述

12.1.2知识图谱的数据来源

12.1.3知识图谱的知识融合

12.1.4知识图谱的表示

12.2知识图谱的挖掘

12.3知识图谱的典型应用

小结

习题

第13章大数据挖掘算法

13.1Hadoop介绍

13.1.1Hadoop的基本概念

13.1.2Hadoop的基本组件

13.2基于MapReduce的数据挖掘算法

13.2.1基于MapReduce的k均值并行算法

13.2.2基于MapReduce的分类算法

13.2.3基于MapReduce的序列模式挖掘算法

小结

习题

参考文献