





定价:59.8元
印次:2-1
ISBN:9787302678250
出版日期:2025.01.01
印刷日期:2025.02.19
图书责编:王冰飞
图书分类:教材
"本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分 (第1章)是概述,指出利用Python采集互联网大数据的重要性,介绍了相关技术研究、技术体系、 采集技术的合规性及应用现状等 ,分析了大模型对互联网大数据技术的影响; 第二部分 (第2、3章)是基础篇,包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范; 第三部分 (第4~10章)是技术与实现篇,全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖各种爬虫技术实现方法及Python实例; 第四部分 (第11、12章)是大数据挖掘与应用篇,介绍 文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术 及应用模式,并以新闻舆情监测、 Web自动化测试、酒店评论文本挖掘 为例介绍Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。 "
前言 党的二十大报告强调: “加快发展数字经济,促进数字经济和实体经济深度融合”,互联网大数据在数字经济中占据着核心地位,是推动经济社会发展的关键生产要素。互联网数据具有典型的大数据特征,即数据量大、数据类型多样化、数据流动性快,并且随着“互联网+”和数字经济国家战略的推进,互联网大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。 编者于2020年出版的《Python爬虫大数据采集与挖掘微课视频版》,以互联网大数据的采集与挖掘为主题,介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。本书(第2版)进一步丰富了多种互联网大数据的处理,完善了爬虫技术体系,提升了知识的完整性、逻辑性和实用性。 在内容安排上,本书涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用技术。在爬虫技术上,本书涵盖各种不同类型的爬虫,包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫。在大数据处理方面,本书涵盖文本、社交网络、时间序列等不同类型数据处理。在应用方面,本书以三种典型的Web信息采集与处理为例,介绍了爬虫技术的应用模式与Python实现方法。 本书作为一本产学兼顾的教材,具有如下特色。 (1) 以互联网大数据技术为主线,将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起,涉及当前互联网Web空间的典型应用,构成完整的大数据采集和挖掘的知识体系。 (2) 在互联网大数据的采集技术中,...
源码下载
额外赠送的资源
目录
第一部分概述
第1章大数据采集与挖掘概述
1.1互联网大数据与采集
1.1.1互联网大数据来源
1.1.2互联网大数据的特征
1.2Python爬虫大数据采集技术的重要性
1.3爬虫技术研究及应用现状
1.4爬虫技术的应用场景
1.5爬虫大数据采集与挖掘的技术体系
1.5.1技术体系构成
1.5.2相关技术
1.5.3爬虫的5个技术特性
1.5.4技术评价方法
1.6爬虫大数据采集与挖掘的合规性
1.7爬虫大数据采集与挖掘技术展望
1.7.1爬虫采集技术展望
1.7.2大模型对互联网大数据技术的影响
思考题
第二部分基础篇
第2章Web页面及相关处理技术
2.1HTML规范
2.1.1HTML标签
2.1.2HTML整体结构
2.1.3CSS简述
2.1.4常用标签
2.1.5HTML的版本进化
2.2编码体系与规范
2.2.1ASCII
2.2.2gb2312/gbk
2.2.3unicode
2.2.4utf8
2.2.5网页中的编码和Python处理
2.3Python正则表达式
2.4相关的Python程序基础
思考题
第3章Web应用架构与协议
3.1常用的Web服务器软件
3.1.1流行的Web服务器软件
3.1.2在Python中配置Web服务...