





定价:49元
印次:1-1
ISBN:9787302619109
出版日期:2022.11.01
印刷日期:2022.11.02
图书责编:郭丽娜
图书分类:教材
本书基于“基础知识” +“代码示例” +“应用案例”的模式编写,共包括 7个项目。项目 1主要介绍互联网数据采集的入门知识;项目 2通过一个入门级的简单案例,介绍互联网数据采集的基本流程;项目 3通过一个进阶的案例,详细介绍在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址;项目 4主要介绍 HTML文档数据的采集,对 HTML进行解析,以及如何提取数据的属性与文本;项目 5主要讲解批量获取数据的整理与合并技巧;项目 6重点讲解如何通过 Python的 pymysql库对 MySQL进行读写;项目 7给出了对半结构化数据进行处理的**实践。 本书内容条理清晰、案例丰富,可以作为职业院校大数据、人工智能、云计算等相关专业的教材,也可以作为行业从业人员的参考用书。 本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
方荣卫,男,讲师,北京市昌平职业学校信息技术系主任,毕业于浙江工业大学信息工程学院,2013年参加工作,工作以来认真钻研课堂教学,课程开发、专业建设以专业技能提升,曾获得2017年全国职业院校信息化教学能力比赛一等奖,被评选为北京市青年骨干教师,昌平区师德标兵,参与中华职教社课题《命运共同体视角下的职业院校行业企业的合作行动方案与推进保障机制研究》,获得一等奖,先后在《教育》、《无人机教育》等期刊发表论文数篇,兼任全国航空工业职业教育教学委员会委员,担任副主编出版了高等教育出版社《无人机飞行训练》和《无人机技术基础》两本教材。
前言 Preface 当今社会已经进入大数据时代,大数据与我们的工作、学习息息相关,深刻影响着生活的方方面面。大数据技术主要涉及数据采集、数据清洗、数据存储、数据分析与挖掘、数据可视化等多个环节。数据采集是其中必不可少的基础环节,所有的大数据项目都要从数据采集开始。本书正是基于此编写而成。 本书在内容编写上采用“基础知识”+“代码示例”+“应用案例”的模式,内容涵盖了互联网数据采集中最主要的知识点,通过真实案例的使用场景和实现代码,帮助读者举一反三,从而将技术应用到实际工作中。 本书以 Windows系统的 jupyter notebook作为主要开发工具,对互联网数据采集技术进行讲解。全书共 7个项目,各项目主要内容如下。 项目 1主要介绍互联网数据采集的入门知识,包括数据采集的概念和用途、常用的采集工具与常用库、开发工具与开发环境搭建等。通过本项目的学习,读者将对互联网数据采集的技术与应用建立初步的认识。 项目 2通过一个入门级的案例,介绍了互联网数据采集的基本流程。通过本项目的学习,读者可以掌握通过 Python请求数据、解析数据、提取关键数据、存储数据的基本知识。 项目 3通过一个进阶的案例,详细介绍了在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址,并详细介绍了 json数据解析的小技巧。通过本项目的学习,读者可以掌握 Chrome抓包工具的使用与技巧,以及 json解析。 项目 4主要介绍了通过 Beautifulsoup库对 HTML进行解析,然后通过 CSS选择器定位数据,提取数据的属性与文本。通过本项目的学习,读...
Contents
项目 1.基础开发环境的安装与配置 ………………………………… 1
任务 1.1.通过 Anaconda3安装基础开发环境 ………………………………………… 4
任务 1.2.常见问题与解决方案 ……………………………………………………………13
项目总结 ………………………………………………………………………………………20
项目巩固与提高 ………………………………………………………………………………20
项目 2.通过国务院新闻网官方 API获取时政新闻 ……………… 21
任务 2.1.从开放的 API采集数据 …………………………………………………………23
任务 2.2.将数据存储到 Excel文件 ………………………………………………………27
项目总结 ………………………………………………………………………………………28
项目巩固与提高 ………………………………………………………………………………29
项目 3.采集巨潮资讯网的股票财经信息 ………………………… 30
任务 3.1. Chrome网络抓包工具的使用 …………………………………………………33
任务 3.2. 通过截获 XHR请求采集数据 ……………………………………………………35
任务 3.3. 采集更多信息 ……………………………………………………………………41
项目总结 ………………………………………………………………………………………44
项目巩固与提高 …………………………………………………………………………... 查看详情