Python爬虫大数据采集与挖掘(第2版·微课视频版)
提供PPT课件,教案,大纲,教学计划,源码和数据,视频,题库,思政,爬虫案例

作者:曾剑平

丛书名:大数据与人工智能技术丛书

定价:59.8元

印次:2-1

ISBN:9787302678250

出版日期:2025.01.01

印刷日期:2025.02.19

图书责编:王冰飞

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分 (第1章)是概述,指出利用Python采集互联网大数据的重要性,介绍了相关技术研究、技术体系、 采集技术的合规性及应用现状等 ,分析了大模型对互联网大数据技术的影响; 第二部分 (第2、3章)是基础篇,包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范; 第三部分 (第4~10章)是技术与实现篇,全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖各种爬虫技术实现方法及Python实例; 第四部分 (第11、12章)是大数据挖掘与应用篇,介绍 文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术 及应用模式,并以新闻舆情监测、 Web自动化测试、酒店评论文本挖掘 为例介绍Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。 "

前言 党的二十大报告强调: “加快发展数字经济,促进数字经济和实体经济深度融合”,互联网大数据在数字经济中占据着核心地位,是推动经济社会发展的关键生产要素。互联网数据具有典型的大数据特征,即数据量大、数据类型多样化、数据流动性快,并且随着“互联网+”和数字经济国家战略的推进,互联网大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。 编者于2020年出版的《Python爬虫大数据采集与挖掘微课视频版》,以互联网大数据的采集与挖掘为主题,介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。本书(第2版)进一步丰富了多种互联网大数据的处理,完善了爬虫技术体系,提升了知识的完整性、逻辑性和实用性。 在内容安排上,本书涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用技术。在爬虫技术上,本书涵盖各种不同类型的爬虫,包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫。在大数据处理方面,本书涵盖文本、社交网络、时间序列等不同类型数据处理。在应用方面,本书以三种典型的Web信息采集与处理为例,介绍了爬虫技术的应用模式与Python实现方法。 本书作为一本产学兼顾的教材,具有如下特色。 (1) 以互联网大数据技术为主线,将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起,涉及当前互联网Web空间的典型应用,构成完整的大数据采集和挖掘的知识体系。 (2) 在互联网大数据的采集技术中,...

课件下载

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情

源码下载

额外赠送的资源

目录

第一部分概述

第1章大数据采集与挖掘概述

1.1互联网大数据与采集

1.1.1互联网大数据来源

1.1.2互联网大数据的特征

1.2Python爬虫大数据采集技术的重要性

1.3爬虫技术研究及应用现状

1.4爬虫技术的应用场景

1.5爬虫大数据采集与挖掘的技术体系

1.5.1技术体系构成

1.5.2相关技术

1.5.3爬虫的5个技术特性

1.5.4技术评价方法

1.6爬虫大数据采集与挖掘的合规性

1.7爬虫大数据采集与挖掘技术展望

1.7.1爬虫采集技术展望

1.7.2大模型对互联网大数据技术的影响

思考题

第二部分基础篇

第2章Web页面及相关处理技术

2.1HTML规范

2.1.1HTML标签

2.1.2HTML整体结构

2.1.3CSS简述

2.1.4常用标签

2.1.5HTML的版本进化

2.2编码体系与规范

2.2.1ASCII

2.2.2gb2312/gbk

2.2.3unicode

2.2.4utf8

2.2.5网页中的编码和Python处理

2.3Python正则表达式

2.4相关的Python程序基础

思考题

第3章Web应用架构与协议

3.1常用的Web服务器软件

3.1.1流行的Web服务器软件

3.1.2在Python中配置Web服务...

本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、习题答案、微课视频和在线题库。