





定价:49元
印次:1-1
ISBN:9787302695424
出版日期:2025.07.01
印刷日期:2025.07.22
图书责编:安妮
图书分类:教材
"本书共5部分。第1部分(第1章)为基础理论,概述大数据的基本概念、特征、发展历史、生态系统及实际应用。第2部分(第2、3章)为数据采集,详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集。第3部分(第4、5章)为数据预处理,深入探讨数据清理、数据集成、数据归约、数据转换等理论和技术,以及如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理。第4部分(第6、7章)为数据可视化,讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表。第5部分(第8~10章)为案例,展示使用Python进行数据采集、预处理与可视化的全过程。 本书既可以作为高等院校计算机及相关专业的教材,也可以作为软件从业人员、计算机爱好者的学习指导用书。 "
吕云翔,北京航空航天大学软件学院副教授。具有多年的软件开发、项目管理、计算机教学经验,对IT行业具有较全面的认识,出版教材多部。目前研究领域包括:软件工程、人工智能、大数据。
前言 如今,大数据已成为推动社会进步与产业升级的重要力量。从商业智能到科学研究,从城市管理到个人生活,大数据的应用无处不在,深刻改变着世界。然而,大数据需要经过精心的采集、预处理与可视化,才能转化为有价值的信息和知识。 本书基于这一背景,通过深入浅出的讲解和丰富的案例演示,帮助读者理解大数据的基本概念、生态系统和实际应用,数据采集、预处理与可视化的各个环节,以及如何使用Python编程语言来实现这些过程。 本书共5部分。在基础理论部分,将带领读者走进大数据的世界,了解大数据的基本概念、特征、发展历史、生态系统及实际应用; 在数据采集部分,将详细介绍数据采集的基本概念、特征、方法和技术,并重点讲解如何使用Python进行网络数据采集,包括网络爬虫基础及Scrapy框架和Selenium库的应用; 在数据预处理部分,将深入探讨数据清理、数据集成、数据归约、数据转换等关键技术,并介绍如何使用NumPy和Pandas这两个强大的Python库来进行数据预处理; 在数据可视化部分,将讲解数据可视化的发展历史、分类和应用,并展示如何使用Matplotlib等Python库来绘制各种类型的图表,从而直观展示数据的内在规律和趋势; 在案例部分,将展示使用Python进行数据采集、预处理与可视化的全过程。通过阅读本书,读者将能够掌握数据处理与分析的核心技能,提升数据素养和数据分析能力,为未来的职业发展打下坚实的基础。 本书的作者为吕云翔、姚泽良、宗坚、杨壮、韩延刚、仇善召、朱英豪、张扬,此外,曾洪立参与了部分内容的编写并进行了素材整理及配套资源制作等。 由于作者水平和能...
第1部分基础理论
第1章大数据概述
1.1大数据基础
1.1.1大数据的基本概念
1.1.2大数据的5V特征
1.1.3大数据的发展历程
1.2大数据生态系统
1.2.1Hadoop
1.2.2Spark
1.3大数据的实际应用
1.3.1大数据的应用领域
1.3.2大数据面临的挑战
思考与练习
章节实训: 大数据软件生态探索
第2部分数据采集
第2章数据采集基础
2.1数据采集的基本概念和特征
2.1.1数据采集的基本概念
2.1.2数据采集的特征
2.2数据采集的方法
2.2.1数据库采集
2.2.2系统日志采集
2.2.3网络数据采集
2.2.4传感器采集
2.2.5众包采集
2.3数据采集的技术
2.3.1网络爬虫
2.3.2数据抽取技术
2.4数据采集工具介绍
思考与练习
章节实训: 利用Octoparse采集网站数据
第3章Python网络数据采集
3.1网络爬虫基础
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots协议
3.2Python爬虫基础库编写爬虫
3.2.1Requests库采集网页
3.2.2BeautifulSoup库解析网页
3.3Scrapy框架构建爬虫
3.3.1Scrapy框架简介
3.3.2Scrapy框架安装
3.3.3Scra... 查看详情