目录
第 1 部分 筑基篇——Python 与数据科学的桥梁
第1章 信息技术与计算机基础 / 2
1.1 信息社会与计算机 / 3
1.1.1 信息与信息处理 / 3
1.1.2 计算机的起源与发展 / 4
1.1.3 计算机的分类和应用领域 / 9
1.1.4 计算思维 / 11
1.2 计算机基础知识 / 13
1.2.1 信息编码 / 13
1.2.2 计算机系统 / 24
1.2.3 操作系统和文件 / 32
本章小结 / 37
习题 / 38
第2章 Python编程基础 / 39
2.1 Python概述 / 40
2.1.1 产生背景 / 40
2.1.2 历史发展 / 40
2.1.3 版本更迭 / 41
2.1.4 应用分析 / 41
2.1.5 发展趋势 / 42
2.2 编程环境 / 42
2.2.1 安装Python解释器 / 43
2.2.2 选择合适的IDE / 43
2.2.3 安装常用的库和工具 / 43
2.2.4 配置环境变量 / 43
2.2.5 测试和验证 / 44
2.3 基础知识 / 45
2.3.1 标识符 / 45
2.3.2 变量 / 46
2.3.3 数据类型 / 46
2.3.4 字符串的表示及格式化 / 47
2.3.5 语句input/output / 48
2.4 流程控制 / 50
2.4.1 程序的基本结构 / 50
2.4.2 分支结构 / 50
2.4.3 循环结构 / 53
2.4.4 综合案例 / 55
2.5 组合数据类型 / 61
2.5.1 列表及其操作 / 61
2.5.2 元组及其操作 / 64
2.5.3 字典及其操作 / 66
2.5.4 集合及其操作 / 68
2.6 函数和模块 / 71
2.6.1 函数 / 71
2.6.2 实操练习:成绩管理系统 / 77
2.6.3 模块 / 79
2.6.4 实操练习:学生管理系统 / 80
2.7 常用的库 / 82
2.7.1 随机数random库 / 82
2.7.2 绘图工具turtle库 / 83
2.7.3 中文分词jieba库 / 85
2.7.4 词云工具wordcloud库 / 85
本章小结 / 86
习题 / 87
第3章 Python操作实践 / 88
3.1 文件和目录操作 / 89
3.1.1 基本概念 / 89
3.1.2 文件的打开与关闭 / 89
3.1.3 文件的读写 / 90
3.1.4 文件和目录的管理 / 91
3.1.5 实操练习:文件和目录管理 / 92
3.2 Word文档处理 / 93
3.2.1 安装 python-docx 库 / 93
3.2.2 创建新文档 / 93
3.2.3 修改现有文档 / 94
3.2.4 高级功能与扩展功能 / 94
3.2.5 实操练习:Word文档处理 / 95
3.3 PDF文件处理 / 99
3.3.1 安装 PyPDF2 和 pdfplumber / 99
3.3.2 内容提取 / 99
3.3.3 合并与拆分 / 99
3.3.4 加密与解密 / 100
3.3.5 实操练习:自动生成报告 / 100
3.4 Excel电子表格处理 / 101
3.4.1 安装依赖库 / 101
3.4.2 读取Excel中的数据 / 101
3.4.3 数据清洗与处理 / 101
3.4.4 将数据写入Excel / 101
3.4.5 高级操作 / 101
3.4.6 实操练习:自动生成销售数据分析报告 / 102
3.5 PPT演示文稿处理 / 102
3.5.1 安装 python-pptx 库 / 102
3.5.2 创建基础PPT / 103
3.5.3 高级功能 / 104
3.6 NumPy 科学计算库 / 105
3.6.1 NumPy库概述 / 106
3.6.2 数组维度 / 106
3.6.3 数组对象ndarray / 106
3.6.4 数组操作 / 108
3.6.5 数组运算 / 115
3.6.6 数据处理 / 120
3.6.7 实操练习:酒鬼漫步 / 126
3.6.8 实操练习:地区经济发展分析 / 127
3.7 Pandas 数据处理与分析库 / 129
3.7.1 Pandas库概述 / 130
3.7.2 数据读取与写入 / 130
3.7.3 数据对象DataFrame与Series / 132
3.7.4 实操练习:将多个DataFrame写入一个Excel的不同sheet的操作 / 144
3.7.5 实操练习:北京高考分数线统计分析 / 145
3.7.6 数据清洗与预处理(选讲) / 149
3.7.7 实操练习:预处理销售数据(选讲) / 154
3.7.8 数据聚合与分组(选讲) / 158
3.7.9 实操练习:运动员信息的分组与聚合(选讲) / 170
3.8 数据可视化工具Matplotlib和Seaborn / 176
3.8.1 Matplotlib基础 / 176
3.8.2 绘制常见图表 / 177
3.8.3 Seaborn高级可视化 / 183
3.8.4 进阶用法 / 190
3.8.5 实操练习:数据可视化 / 192
3.8.6 实操练习:图示分析景点数据 / 193
本章小结 / 197
习题 / 198
第4章 机器学习基础 / 199
4.1 概述 / 200
4.2 scikit-learn库 / 201
4.2.1 核心功能 / 201
4.2.2 安装 / 201
4.2.3 实操练习:用KNN算法对鸢尾花数据集进行分类 / 201
4.3 监督学习 / 202
4.4 无监督学习 / 203
4.5 模型评估与优化 / 205
4.5.1 模型评估 / 205
4.5.2 模型优化 / 205
4.5.3 实操练习:用决策树对鸢尾花数据集进行分类 / 206
本章小结 / 207
习题 / 207
第 2 部分 进阶篇——分布式计算与生态工具
第5章 大数据基础及应用框架 / 210
5.1 大数据基础知识 / 211
5.1.1 概念及特征 / 211
5.1.2 发展现状 / 213
5.2 大数据分析理论与方法 / 217
5.2.1 基本理念 / 218
5.2.2 主要步骤 / 219
5.2.3 数据对象 / 220
5.2.4 主要模型 / 221
5.2.5 应用平台 / 228
5.3 大数据分析框架 / 229
5.3.1 Hadoop与HDFS / 229
5.3.2 大数据的存储与访问 / 230
5.4 Spark数据处理平台 / 230
5.4.1 核心组件 / 231
5.4.2 基本概念 / 231
5.4.3 实操练习:词频统计 / 232
5.5 大数据分析应用前沿 / 233
5.5.1 在金融领域的应用 / 233
5.5.2 在零售领域的应用 / 234
5.5.3 在制造业领域的应用 / 235
5.5.4 在医疗领域的应用 / 235
本章小结 / 236
习题 / 237
第6章 国产大模型DeepSeek / 238
6.1 核心特点 / 239
6.2 技术基础 / 239
6.3 应用场景 / 240
6.4 DeepSeek的使用方法 / 240
6.5 实操练习 / 240
本章小结 / 241
习题 / 241
第 3 部分 实战篇——从数据到商业价值
第7章 实战案例 / 244
7.1 案例一:电商数据分析 / 244
7.1.1 示例场景 / 244
7.1.2 安装依赖 / 245
7.1.3 示例代码 / 245
7.2 案例二:社交媒体情感分析 / 247
7.2.1 示例场景 / 247
7.2.2 安装依赖 / 247
7.2.3 示例代码 / 247
7.3 案例三:财务大数据分析 / 249
7.3.1 示例场景 / 250
7.3.2 安装依赖 / 250
7.3.3 示例代码 / 250
7.4 案例四:政务大数据分析 / 253
7.4.1 示例场景 / 253
7.4.2 安装依赖 / 253
7.4.3 示例代码 / 253
7.5 案例五:自媒体大数据分析 / 255
7.5.1 示例场景 / 256
7.5.2 安装依赖 / 256
7.5.3 示例代码 / 256
7.6 案例六:生活服务类大数据分析 / 258
7.6.1 示例场景 / 258
7.6.2 安装依赖 / 259
7.6.3 示例代码 / 259
参考文献 / 262