Python数据采集、预处理与可视化
案例驱动,讲解数据采集、预处理与可视化全流程

作者:吕云翔,姚泽良,宗坚,杨壮,韩延刚,仇善召,朱英豪,张扬

丛书名:大数据与人工智能技术丛书

定价:49元

印次:1-1

ISBN:9787302695424

出版日期:2025.07.01

印刷日期:2025.07.22

图书责编:安妮

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书共5部分。第1部分(第1章)为基础理论,概述大数据的基本概念、特征、发展历史、生态系统及实际应用。第2部分(第2、3章)为数据采集,详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集。第3部分(第4、5章)为数据预处理,深入探讨数据清理、数据集成、数据归约、数据转换等理论和技术,以及如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理。第4部分(第6、7章)为数据可视化,讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表。第5部分(第8~10章)为案例,展示使用Python进行数据采集、预处理与可视化的全过程。 本书既可以作为高等院校计算机及相关专业的教材,也可以作为软件从业人员、计算机爱好者的学习指导用书。 "

吕云翔,北京航空航天大学软件学院副教授。具有多年的软件开发、项目管理、计算机教学经验,对IT行业具有较全面的认识,出版教材多部。目前研究领域包括:软件工程、人工智能、大数据。

前言 如今,大数据已成为推动社会进步与产业升级的重要力量。从商业智能到科学研究,从城市管理到个人生活,大数据的应用无处不在,深刻改变着世界。然而,大数据需要经过精心的采集、预处理与可视化,才能转化为有价值的信息和知识。 本书基于这一背景,通过深入浅出的讲解和丰富的案例演示,帮助读者理解大数据的基本概念、生态系统和实际应用,数据采集、预处理与可视化的各个环节,以及如何使用Python编程语言来实现这些过程。 本书共5部分。在基础理论部分,将带领读者走进大数据的世界,了解大数据的基本概念、特征、发展历史、生态系统及实际应用; 在数据采集部分,将详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集,包括网络爬虫基础及Scrapy框架和Selenium库的应用; 在数据预处理部分,将深入探讨数据清理、数据集成、数据归约、数据转换等关键技术,并介绍如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理; 在数据可视化部分,将讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表,从而直观展示数据的内在规律和趋势; 在案例部分,将展示使用Python进行数据采集、预处理与可视化的全过程。通过阅读本书,读者将能够掌握数据处理与分析的核心技能,提升数据素养和数据分析能力,为未来的职业发展打下坚实的基础。 本书的作者为吕云翔、姚泽良、宗坚、杨壮、韩延刚、仇善召、朱英豪、张扬,此外,曾洪立参与了部分内容的编写并进行了素材整理及配套资源制作等。 由于作者水平和能...

目录
荐语
查看详情 查看详情
目录

第1部分基础理论

第1章大数据概述

1.1大数据基础

1.1.1大数据的基本概念

1.1.2大数据的5V特征

1.1.3大数据的发展历程

1.2大数据生态系统

1.2.1Hadoop

1.2.2Spark

1.3大数据的实际应用

1.3.1大数据的应用领域

1.3.2大数据面临的挑战

思考与练习

章节实训: 大数据软件生态探索

第2部分数据采集

第2章数据采集基础

2.1数据采集的基本概念和特征

2.1.1数据采集的基本概念

2.1.2数据采集的特征

2.2数据采集的方法

2.2.1数据库采集

2.2.2系统日志采集

2.2.3网络数据采集

2.2.4传感器采集

2.2.5众包采集

2.3数据采集的技术

2.3.1网络爬虫

2.3.2数据抽取技术

2.4数据采集工具介绍

思考与练习

章节实训: 利用Octoparse采集网站数据

第3章Python网络数据采集

3.1网络爬虫基础

3.1.1HTML

3.1.2HTTP

3.1.3JavaScript

3.1.4Robots协议

3.2Python爬虫基础库编写爬虫

3.2.1Requests库采集网页

3.2.2BeautifulSoup库解析网页

3.3Scrapy框架构建爬虫

3.3.1Scrapy框架简介

3.3.2Scrapy框架安装

3.3.3Scra... 查看详情

本书以案例为驱动,由浅入深地介绍Python数据采集、预处理与可视化涉及的内容,实用性很强。


查看详情