Python数据科学项目实战
一本系统的实用Python案例书,通过5个案例介绍使用Python进行数据科学工作所需的知识。随书附赠源代码,获取地址见书封底二维码。

作者:[美] 伦纳德·阿佩尔辛(Leonard Apeltsin)著 殷海英 史跃东 译

定价:139元

印次:1-1

ISBN:9787302618140

出版日期:2022.11.01

印刷日期:2022.10.24

图书责编:王军

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

● 网页抓取 ● 使用聚类算法组织数据集 ● 可视化复杂的多变量数据集 ● 训练决策树机器学习算法

Leonard Apeltsin是Anomaly的数据科学主管。他的团队应用高级分析来发现医疗保健欺诈、浪费和滥用的情况。在加盟Anomaly之前,Leonard领导了Primer AI的机器学习开发工作;Primer AI是一家专门从事自然语言处理的初创公司。作为创始成员,Leonard帮助Primer AI团队从4名员工发展到近100名员工。在进入创业公司之前,Leonard在学术界工作,他发现了遗传相关疾病的隐藏模式。他的发现发表在《科学》和《自然》杂志的附属期刊上。Leonard拥有卡内基梅隆大学的生物学和计算机科学学士学位,以及加州大学旧金山分校的生物信息学博士学位。

前 言 开放式解决问题的能力对于数据科学职业至关重要。遗憾的是,这些能力不能仅通过阅读获得。要成为问题解决者,你必须坚持不懈地解决难题。考虑到这一点,我围绕案例研究构思了本书:以现实世界情况为模型的开放式问题。案例研究范围从在线广告分析到使用新闻数据跟踪疾病暴发。完成这些案例研究后,你将可以开始你的数据科学事业。 本书的目标读者 本书的目标读者是具有基本的分析基础且有兴趣转行到数据科学职业的人。我的设想是,他也许是一位想探索更多的分析机会的经济学大四学生,或者是一位已经毕业的化学专业学生正在寻找以数据为中心的职业道路。又或者,读者可能是一位成功的前端Web开发人员,其数学背景非常有限,但也想尝试数据科学。本书的潜在读者都没有上过数据科学课程,这让他们在进行各种数据分析时感到力不从心。本书的目的是消除这些技能缺陷。 本书的读者需要了解Python编程的最基本知识。自学Python入门知识的水平应该能足以探索本书中的练习。至于数学知识,读者只需要理解基本的高中三角函数即可。 本书组织结构 本书包含5个难度由浅入深的案例研究。每个案例研究都以你需要解决的问题的详细陈述开始。问题陈述之后是用2~5章介绍解决问题所需的数据科学技能。这些技能部分涵盖了Python基础库以及数学和算法技术。每个案例研究的最后一章都描述了问题的解决方案。 案例研究1与基本概率论有关。 ● 第1章讨论如何使用简单的Python计算概率。 ● 第2章介绍概率分布的概念。该章还介绍Matplotlib可视化库,通过它可以对分布进行可视化。 ● 第3章讨论如何使用随机模拟来估...

目录
荐语
查看详情 查看详情
目    录

案例研究1  在纸牌游戏中寻找制胜策略

第1章  使用Python计算概率 3

1.1  样本空间分析:一种用于测量结果不确定性的无方程方法 3

1.2  计算非平凡概率 7

1.2.1  问题1:分析一个有4个孩子的家庭 7

1.2.2  问题2:分析掷骰子游戏 9

1.2.3  问题3:使用加权样本空间计算掷骰概率 10

1.3  计算区间范围内的概率 12

1.4  本章小结 14

第2章  使用Matplotlib绘制概率图 15

2.1  基本的Matplotlib图 15

2.2  绘制抛硬币概率 19

2.3  本章小结 28

第3章  在NumPy中运行随机模拟 29

3.1  使用NumPy模拟随机抛硬币和掷骰子实验 29

3.2  使用直方图和NumPy数组计算置信区间 33

3.2.1  通过直方图合并显示邻近值 35

3.2.2  利用直方图进行概率推导 38

3.2.3  缩小较高置信区间的范围 40

3.2.4  在NumPy中计算直方图 43

3.3  使用置信区间分析一副有偏纸牌 44

3.4  使用排列来洗牌 47

3.5  本章小结 49

第4章  案例研究1的解决方案 51

4.1  对红牌进行预测 51

4.2  使用10张牌的样本空间来优化策略 57

4.3  本章小结 61

案例研究2  评估在线广告点击的显著性

第5章  使用SciPy进行基本概率和统计分析 65

5.1  使用SciPy探索数据和概率之间的关系 66

5.2  将均值作为中心性的度量 ... 查看详情

数据科学项目有很多灵活的部分,需要练习和技巧才能让所有代码、算法、数据集、格式和可视化协调工作。本书将引导你完成5个真实项目,包括根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式。
《Python数据科学项目实战》并不止于表面理论和简单示例。在完成每个项目时,你将学习如何解决常见问题,例如数据丢失、混乱的数据以及与构建模型不匹配的算法。你将了解详细的设置说明和常见故障的全面解决方案。最后,通过完成这些项目,你将对自己的技能充满信心。

查看详情