目录
基 础 篇
第1章 Python语法基础
1.1?引言
1.2?Python编辑器
1.3 语法规范
1.4 数据类型
1.5 运算符
1.6 流程控制
1.6.1 选择结构
1.6.2 循环结构
1.7 常用函数
第2章 NumPy和Pandas
2.1 NumPy
2.1.1 数组的创建
2.1.2 数组的操作
2.1.3 条件筛选
2.2 Pandas
2.2.1 Series的创建与访问
2.2.2 DataFrame的创建与访问
2.2.3 条件筛选
2.2.4 数据的增删改
2.2.5 排序
2.2.6 索引重置
2.3 读存数据
2.3.1 读取数据
2.3.2 保存数据
2.4 Pandas其他操作
第3章 数据可视化Matplotlib
3.1 Matplotlib基本绘图
3.1.1 基本操作
3.1.2 中文符号的显示
3.2 绘图
3.2.1 饼图
3.2.2 散点图
第4章 数据处理
4.1 统计性描述
4.2 异常值处理
4.2.1 重复值的处理
4.2.2 缺失值的处理
4.3 数据列计算
4.3.1 对数据进行替换
4.3.2 数据分组
4.3.3 数据排序
第5章 基因序列查找与翻译
5.1 读取查找基因序列
5.2 翻译蛋白质序列
进 阶 篇
第6章 机器学习入门
6.1 分类算法
6.2 回归算法
6.3 聚类算法
6.4 常见的算法模型
第7章 心脏病风险预测分析
7.1 准备工作
7.2 数据读取与处理
7.3 模型建立与效果评价
7.3.1 决策树模型
7.3.2 随机森林模型
7.3.3 XGBoost模型
7.3.4 CatBoost模型
第8章 模型Shap解读与保存部署
8.1 Shap解读模型
8.1.1 Shap值计算
8.1.2 摘要图(Summary Plot)
8.1.3 Shap特征贡献图
8.1.4 依赖图(Dependence Plot)
8.1.5 力图(Force Plot)
8.1.6 热图(Heatmap)
8.2 模型保存
8.3 模型调用
第9章 胎儿健康多分类预测实现及模型评价
9.1 数据读取与处理
9.1.1 数据预处理——编码
9.1.2 数据集划分
9.2 特征筛选
9.2.1 递归特征消除与交叉验证优化特征选择
9.2.2 递归特征消除与交叉验证结果可视化
9.3 模型构建
9.4 XGBoost模型预测与分类性能评估
9.5 XGBoost模型的混淆矩阵
9.6 宏平均ROC曲线
9.6.1 XGBoost模型的ROC曲线和宏平均AUC计算
9.6.2 宏平均ROC曲线绘制
9.7 Shap值计算及特征贡献解释
9.7.1 绘制模型特征贡献图
9.7.2 模型单样本解释——瀑布图
第10章 帕金森病患者特征选择回归预测实现
10.1 数据准备
10.2 RF回归模型的创建与训练
10.3 特征重要性分析
10.4 特征选择
10.4.1 蒙特卡洛模拟和交叉验证
10.4.2 最佳特征选择
10.5 网格搜索和参数优化
10.6 模型评价
10.7 预测结果可视化
第11章 Python实现单细胞RNA测序数据分析
11.1 准备工作
11.2 单细胞数据读取与预处理
11.2.1 数据读取
11.2.2 质量控制
11.3 单细胞RNA测序数据分析
11.3.1 数据规范化
11.3.2 找特征
11.3.3 数据缩放
11.3.4 主成分分析(PCA)
11.3.5 构建图
11.3.6 聚类
11.3.7 寻找差异基因
11.4 注释细胞类型
实 战 篇
第12章 论文复现:可解释的急性肾损伤预测模型
12.1 数据读取
12.2 构建模型
12.2.1 AdaBoost
12.2.2 ANN
12.2.3 DT
12.2.4 ET
12.2.5 GBM
12.2.6 KNN
12.2.7 LightGBM
12.2.8 LR
12.2.9 RF
12.2.10 SVM
12.2.11 XGBoost
12.3 模型特征的选择
12.3.1 模型选择
12.3.2 基于Shap的特征选择
12.4 模型重构
12.5 利用Shap对模型进行解释
高?级?AI?篇
第13章 PandasAI智能分析
13.1 安装PandasAI
13.2 开始使用
13.3 存储数据集
13.4 加载数据集
第14章 Trae智能分析
14.1?安装Trae
14.2?AI编写代码
14.3?AI生成完整代码
附录A 模型App部署
A.1 部署准备
A.2 生成URL
附录B 随机森林参数调优与缺失值处理
B.1 超参数调优
B.2 随机森林缺失值处理