图书目录

目    录

第1章  DeepSeek概述 1

1.1  DeepSeek大模型:重塑数据分析范式 1

1.2  核心技术体系:构建智能分析闭环 1

1.3  本地部署DeepSeek 3

1.3.1  安装Ollama 3

1.3.2  安装DeepSeek 4

1.3.3  安装Chatbox 4

1.3.4  API调用实战 6

1.4  使用DeepSeek在线开发环境进行工作 12

1.4.1  AI代码编辑器—Cursor 12

1.4.2  如何用DeepSeek开始数据分析 16

1.5  本章小结 19

第2章  利用DeepSeek进行数据加载 20

2.1  读取本地离线数据 20

2.1.1  读取CSV文本数据 20

2.1.2  读取Excel文件数据 23

2.1.3  读取本地图片数据 26

2.1.4  读取PDF文件数据 28

2.1.5  读取XML格式数据 32

2.2  读取数据库数据 34

2.2.1  读取Oracle数据库数据 35

2.2.2  读取MySQL数据库数据 38

2.2.3  读取SQL Server数据库数据 41

2.2.4  读取Kingbase数据库数据 44

2.2.5  读取OceanBase数据库数据 47

2.3  读取Web在线数据 49

2.3.1  如何获取并解析Web数据 49

2.3.2  读取UCI红酒在线数据 51

2.4  本章小结 54

第3章  利用DeepSeek进行数据清洗 55

3.1  重复值的检测与处理 55

3.1.1  重复值的检测方法 55

3.1.2  重复值的处理 60

3.2  缺失值的检测与处理 63

3.2.1  缺失值的检测 63

3.2.2  缺失值的处理 67

3.3  异常值的检测与处理 78

3.3.1  异常值的检测 78

3.3.2  异常值的处理 83

3.4  本章小结 94

第4章  利用DeepSeek进行数据预处理 95

4.1  数据集成 95

4.1.1  数据集成概述 95

4.1.2  数据横向合并 97

4.1.3  数据纵向合并 100

4.2  数据转换 104

4.2.1  数据转换概述 104

4.2.2  数据标准化处理方法 105

4.2.3  数据二值化处理方法 108

4.2.4  数据离散化处理方法 111

4.3  数据集划分 116

4.3.1  数据集划分概述 116

4.3.2  训练集和测试集法 117

4.3.3  训练集/验证集/测试集法 120

4.3.4  分层抽样法 123

4.4  本章小结 126

第5章  利用DeepSeek进行数据探索 128

5.1  描述性分析 128

5.1.1  描述性分析概述 128

5.1.2  案例:国内生产总值描述性分析 130

5.2  频数分析 133

5.2.1  频数分析概述 133

5.2.2  案例:居民消费水平频数分析 134

5.3  探索分析 137

5.3.1  探索分析概述 138

5.3.2  案例:商品评论得分探索分析 138

5.4  交叉表分析 141

5.4.1  交叉表分析概述 141

5.4.2  案例:商品颜色交叉表分析 142

5.5  相关分析 144

5.5.1  相关关系概述 144

5.5.2  案例:铁路和公路货运量分析 146

5.6  偏相关分析 149

5.6.1  偏相关分析概述 150

5.6.2  案例:铁路和公路货运量分析 150

5.7  本章小结 153

第6章  利用DeepSeek进行回归分析 154

6.1  线性回归 154

6.1.1  线性回归概述 154

6.1.2  案例:贷款申请人负债率分析 157

6.2  曲线回归 162

6.2.1  曲线回归概述 162

6.2.2  案例:信用额度使用率分析 163

6.3  逻辑回归 168

6.3.1  逻辑回归概述 168

6.3.2  案例:贷款客户是否违约分析 168

6.4  本章小结 172

第7章  利用DeepSeek进行聚类分析 173

7.1  聚类分析简介 173

7.2  K-Means聚类 174

7.2.1  K-Means算法 174

7.2.2  案例:水质监测聚类分析 175

7.3  手肘法判断聚类数 180

7.3.1  手肘法概述 180

7.3.2  案例:手肘法判断聚类数 181

7.4  轮廓系数法判断聚类数 184

7.4.1  轮廓系数法 185

7.4.2  案例:轮廓系数法判断聚类数 185

7.5  本章小结 189

第8章  利用DeepSeek进行时间序列分析 190

8.1  时间序列分析概述 190

8.1.1  时序数据简介 190

8.1.2  时间序列算法 192

8.2  指数平滑法及其案例 193

8.2.1  指数平滑法 193

8.2.2  案例:制造业采购经理指数预测 195

8.3  ARIMA模型及其案例 199

8.3.1  ARIMA模型 199

8.3.2  案例:居民消费价格指数预测 201

8.4  本章小结 205

第9章  利用DeepSeek进行模型评估 206

9.1  模型评估方法 206

9.1.1  混淆矩阵及案例 206

9.1.2  ROC曲线及案例 211

9.1.3  R平方及案例 215

9.1.4  残差及案例 219

9.1.5  交叉验证及案例 222

9.1.6  学习曲线及案例 226

9.2  欠拟合及其案例 231

9.2.1  欠拟合及其影响 231

9.2.2  案例:波士顿房价回归分析 231

9.3  过拟合及其案例 235

9.3.1  过拟合及其影响 236

9.3.2  案例:基于随机森林的鸢尾花分类 236

9.4  本章小结 240

第10章  利用DeepSeek撰写分析报告 241

10.1  数据分析报告的作用 241

10.2  DeepSeep撰写数据分析报告的注意事项 242

10.3  案例:电商数据分析报告 243

10.3.1  分析背景 243

10.3.2  理解数据 244

10.3.3  数据清洗 245

10.3.4  数据分析 246

10.3.5  案例总结 264

10.4  本章小结 264

第11章  案例:DeepSeek金融量化数据分析 265

11.1  案例概述 265

11.1.1  K线图技术理论 265

11.1.2  案例数据采集 266

11.2  数据基础分析 269

11.2.1  查看数据集信息 269

11.2.2  数据描述性分析 272

11.2.3  数据可视化分析 275

11.3  股票数据分析 283

11.3.1  指标相关性分析 283

11.3.2  指标趋势性分析 286

11.3.3  股票交易时机分析 289

11.4  本章小结 292

第12章  案例:DeepSeek电商平台数据分析 293

12.1  案例背景 293

12.2  商品销售数据分析 293

12.2.1  每日商品订单量日历图 294

12.2.2  每月商品销售额折线图 297

12.2.3  不同区域销售业绩雷达图 300

12.3  商品评论文本分析 303

12.3.1  中文Jieba分词概述 303

12.3.2  商品评论关键词分析 304

12.3.3  商品评论关键词词云 307

12.4  本章小结 310