首页 > 图书中心 >图书详情

Scrapy网络爬虫开发实战

使用流行的Scrapy框架开发网络爬虫的应用,适用于对Python网络爬虫领域感兴趣的人士参考阅读。

作者:罗刚
定价:69.80
印次:1-1
ISBN:9787302658580
出版日期:2024.06.01
印刷日期:2024.04.01

《Scrapy网络爬虫开发实战》介绍如何学习和使用流行的Scrapy框架开发网络爬虫应用,主要内容使用Python开发网络爬虫,识别网页的编码,结构化信息的提取,Scrapy爬虫的示例使用,Scrapy Playwright抓取动态JS网站,将抓取的数据保存到数据库,部署、调度和运行Scrapy爬虫等。 《Scrapy网络爬虫开发实战》适合作为高等院校计算机、软件工程专业本科生、研究生的参考书目,也适用于对Python网络爬虫领域感兴趣的人士参考阅读。

more >

前言 Scrapy是一个用Python语言编写的网络爬虫框架。它应用广泛——从数据挖掘到监控和自动化测试。它目前由Zyte公司维护,前身为Scrapinyhub公司,这是一家网络抓取和服务公司。《Scrapy网络爬虫开发实战》介绍使用Scrapy开发网络爬虫应用。 《Scrapy网络爬虫开发实战》共8章,第1章介绍网络爬虫开发快速入门;第2章介绍Python开发快速入门;第3章介绍使用Python开发网络爬虫;第4章介绍从互联网提取信息;第5章介绍使用Scrapy开发爬虫;第6章介绍分布式爬虫开发;第7章介绍如何开发网络爬虫用户界面;第8章介绍网络爬虫案例。 《Scrapy网络爬虫开发实战》适合需要具体实现网络爬虫应用的开发人员或者对网络爬虫等相关领域感兴趣的人士参考,同时猎兔搜索技术团队已经开发出《Scrapy网络爬虫开发实战》配套的培训课程和商业软件。 《Scrapy网络爬虫开发实战》中的一些内容和现有的一些开源项目Scrapy等共同成长和发展。由于作者水平有限,书中疏漏之处在所难免,敬请广大读者朋友批评指正。 感谢早期合著者、合作伙伴、员工、学员、读者的支持,给我们提供了良好的工作基础,就像玻璃容器中的水培植物一样,这是一个持久可用的成长基础,技术的融合与创新无止境,欢迎一起探索。

more >
扫描二维码
下载APP了解更多
图书分类全部图书
more >
  • 罗刚,2004年开始创建猎兔搜索技术,10多年来一直从事搜索引擎、自然语言处理、图像识别等技术的研发和团队管理工作。 曾经担任新东方公司研究员,国防大学科研处技术顾问,工信部舆情开发顾问,红象云腾公司技术顾问,青岛大快搜索公司首席架构师,中和云技术合伙人,东南大学社会导师,北京石油化工学院社会导师。近几年同时开展了学员就业培训工作,成功培训了50多位专业的软件工程师,培养的工程师目前分布在百度、美团、Nuance、云知声、摄星等相关公司研发中心

  • 《Scrapy网络爬虫开发实战》由猎兔搜索技术团队核心成员编写,使用流行的Scrapy框架开发网络爬虫的应用,适合需要具体实现网络爬虫应用的开发人员或者对网络爬虫等相关领域感兴趣的人士参考。

more >
  • 目录

    目录

    第1章?网络爬虫快速入门

    1.1 各种网络爬虫

    1.1.1 通用爬虫

    1.1.2 定向爬虫

    1.2 网络爬虫基本技术

    1.3 Windows命令行

    1.4 上手Scrapy网络爬虫开发

    1.5?本章小结

    第2章?Python开发快速入门

    2.1?变量

    2.2?注释

    2.3?简单数据类型

    2.3.1?数值

    2.3.2?字符串

    2.3.3?数组

    2.4?字面值

    2.5?控制流

    2.5.1?if语句

    2.5.2?循环

    2.6?列表

    2.7?元组

    2.8?集合

    2.9?字典

    2.10?函数

    2.11?模块

    2.12?检查字符串是否包含子字符串

    2.13?面向对象编程

    2.14?泛型

    2.15?日志记录

    2.16?数据库

    2.17?本章小结

    第3章?使用Python开发网络爬虫

    3.1?使用BeautifulSoup实现定向采集

    3.2?URL基础

    3.2.1?URI

    3.2.2?解析相对地址

    3.2.3?DNS解析

    3.3?网络爬虫抓取原理

    3.4?爬虫架构

    3.4.1?基本架构

    3.4.2?分布式爬虫架构

    3.4.3?垂直爬虫架构

    3.5 下载网页

    3.5.1 HTTP

    3.5.2?HTML文档

    3.5.3?使用curl命令下载网络资源

    3.5.4?使用wget命令下载网页

    3.5.5?下载静态网页

    3.5.6?使用Selenium下载动态内容

    3.5.7?重试

    3.6?下载图片

    3.7?网络爬虫的遍历与实现

    3.8 robots协议

    3.9 ...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘