图书目录

目录

第1篇R语言

第1章R语言概览/31.1下载和安装R4

1.2安装和加载R程序包6

1.3R的基本使用7

1.4工作文件夹与工作空间10

1.5数据集12

第2章表达式/18

2.1字面量18

2.2运算符和表达式20

2.3日期时间23

第3章字符串与正规表达式/27

3.1字符串处理27

3.1.1字符个数27

3.1.2子串28

3.1.3拆分29

3.1.4连接30

3.1.5查找31

3.1.6替换31

3.1.7大小写转换32

3.1.8格式化32

3.2正规表达式33

第4章函数/37

4.1函数声明和调用37

4.2环境40

4.2.1环境的嵌套40

4.2.2访问环境42〖1〗R语言大数据分析目录〖3〗〖3〗4.2.3与函数相关的环境44

4.3控制结构46

第5章向量/51

5.1创建向量51

5.1.1枚举法51

5.1.2描述法52

5.1.3数列法53

5.1.4向量元素的命名54

5.1.5类型判断与类型转换54

5.2访问向量55

5.3算术运算57

5.4逻辑运算和关系运算60

5.5查询62

5.5.1条件查询62

5.5.2聚合查询63

5.6面向集合的查询66

5.7面向向量的程序设计67

5.8因子69

第6章矩阵/72

6.1创建矩阵72

6.2访问矩阵75

6.3矩阵运算77

第7章数据框/81

7.1创建数据框81

7.2访问数据框82

7.3tibble对象87

第8章列表/90

8.1创建列表90

8.2访问列表91

8.3泛函数93

第9章面向对象程序设计/102

9.1类的定义102

9.2静态属性104

9.3面向对象的R脚本设计107

第10章数据存储/113

10.1导入导出113

10.1.1函数read.table和write.table113

10.1.2函数read.csv和write.csv114

10.1.3函数readLines和writeLines116

10.1.4读取Excel工作表116

10.1.5ODBC数据源117

10.2持久化R数据对象119

10.3格式化输出120

10.4虚拟内存121

10.5操作文件和文件夹125

第2篇可视化

第11章统计绘图/13111.1绘图设备131

11.2布局133

11.3绘图函数135

11.4常用绘图参数145

11.5散点图148

11.6核密度图150

11.7箱线图151

11.8柱形图152

11.9饼图155

11.10直方图156

11.11折线图157

第12章图形文法ggplot2/158

12.1ggplot2简介158

12.2散点图170

12.3直方图175

12.4箱线图180

12.5柱形图182

12.6折线图187

12.7标注192

12.8统计变换197

12.9位置调整200

12.10尺度变换202

12.11切面212

12.12主题216

12.13色彩与构成217

12.13.1颜色与颜色的属性217

12.13.2色彩搭配218

12.14调色板218

12.15案例研究221

第3篇数 据 分 析

第13章数据分析基础/22913.1数据质量的度量229

13.2数据清洗变换230

13.2.1缺失值230

13.2.2重复232

13.2.3有效性233

13.2.4统计量233

13.3可视化234

13.4查询型大数据分析241

13.5探索性大数据分析242

13.6挖掘型大数据分析245

第14章查询型分析与数据表/247

14.1数据表247

14.2创建和引用数据表248

14.2.1创建数据表248

14.2.2引用数据表250

14.3查询数据表250

14.3.1按行号查询250

14.3.2条件查询251

14.3.3查询结果的类型252

14.3.4分组汇总254

14.3.5键和索引256

14.3.6应用只读变量查询258

14.3.7其他260

14.4去重263

14.5上卷266

14.6连接268

14.7集合运算271

14.8更新272

14.9行列变换276

第15章描述性统计与探索性分析/278

15.1总体与样本278

15.2概率分布280

15.3联合分布281

15.4可视化分布283

15.5样本平均数的分布285

15.6描述性统计287

15.6.1集中趋势287

15.6.2变异性287

15.7探索性数据分析292

15.7.1皮尔逊相关292

15.7.2斯皮尔曼等级相关297

15.7.3肯德尔相关299

15.8z分数301

15.9假设检验302

15.10卡方检验306

15.11抽样309

第16章挖掘型分析/312

16.1数据挖掘任务312

16.2决策树分类314

16.3朴素贝叶斯分类318

16.4K最近邻分类321

16.5一元线性回归324

16.6Logistic回归329

16.7分类算法的性能评估333

16.7.1查准率和查全率333

16.7.2ROC曲线334

16.8K均值聚类338

16.9EM聚类345

16.10Apriori关联规则347

16.11序列模式挖掘350

第17章离群点检测/354

17.1基于统计的检测356

17.2基于最近邻的方法360

17.3基于划分的算法361

17.3.1隔离森林算法362

17.3.2扩展的隔离森林算法364

17.4基于聚类的方法367

17.5多变量离群点检测371

17.6单变量离群点检测374

17.7贡献分析377

第18章文本挖掘/381

18.1文本挖掘简介381

18.2语篇分析382

18.3词嵌入383

18.4影评分类案例385

18.4.1基于词汇表的向量化386

18.4.2修剪词汇388

18.4.3Ngrams389

18.4.4特征哈希390

18.4.5变换DTM391

参考文献/392