前 言
当前,大数据与人工智能技术炙手可热,其对应的工作岗位也逐年增加,薪资也较为诱人。我们在做大数据与人工智能处理时,不可避免地会遇到数据的问题。现实中的数据是不完整的,比如存在缺失值、干扰值等脏数据,这样就没有办法直接挖掘数据的价值,也不能将其直接应用于人工智能设备。为了提高数据的质量产生了数据预处理技术。数据预处理主要是指对原始数据进行文本抽取、数据清理、数据集成、数据变换、数据降维等处理,其目的是提高数据质量,以更好地提升算法模型的性能,其在数据挖掘、自然语言处理、机器学习、深度学习算法中应用广泛。数据预处理是一项很庞杂的工程,当你面对一堆数据手足无措的时候,当你面对数据预处理背后的坑一筹莫展的时候,当你的算法性能迟迟不能提升的时候,本书可以帮助你解决以上问题。本书从什么是数据预处理及其相关基础知识入手,分别介绍了网络爬虫、数据抽取、数据清洗、数据集成、数据变换、数据向量化、数据规约等技术,并结合实际项目和案例帮助读者将所学知识快速应用于工程实践,相信会对数据预处理感兴趣的读者和大数据从业者有所帮助。
本书的主要内容
本书从逻辑上可分为三部分,共12章内容,各部分说明如下:
第一部分(第1~3章),主要介绍数据预处理的基础知识,包括数据预处理的基本概念、工作流程、应用场景、开发环境、入门演练和Python科学计算工具包Numpy、SciPy、Pandas及其实际应用。如果读者已具备一定的数据预处理基础,可以跳过此部分,从第三章开始学习。
第二部分(第3~10章),是数据预处理的实战进阶部分,共计8章。第3章介绍数据采集与存储,主要涉及数据类型和采集方式,其中着重介绍了爬虫技术;第4章介绍不同格式的文本信息抽取和文件读取;第5章介绍了高效读取文件、正则清洗文本信息、网页数据清洗和文本批量清洗工作;第6章介绍了中文分词、封装分词工具包、NLTK词频处理、命名实体抽取和批量分词处理工作;第7章介绍了特征向量化处理,其中涉及数据解析、缺失值处理、归一化处理、特征词文本向量化、词频-逆词频、词集模型、词袋模型和批量文本特征向量化工作;第8章介绍基于Gensim文本特征向量化,涉及构建语料词典、词频统计、词频-逆词频计算、主题模型和特
征降维等。第9章介绍了主成分分析PCA降维技术的原理和实际案例;第10章介绍了Matplotlib数据可视化及案例。
第三部分(包括第11章和第12章),是数据预处理的实际应用部分,主要介绍竞赛神器XGBoost的算法原理、应用、优化调参以及数据预处理在文本分类中的实际应用。
本书的主要特色
本书主要包括以下特色:
? 本书理论与应用相结合,循序渐进地介绍了数据预处理的相关概念、基础知识、常用工具及应用案例,书中实战案例均来自于笔者的实际项目,具有较强的实用性。
? 本书涵盖了数据预处理实际开发中绝大部分重要的知识点,介绍了当今数据预处理涉及的各种技术和热门工具,技术先进,内容详尽,代码可读性及可操作性强。
? 本书针对每一个知识点,尽可能地通过示例来讲解,每一个示例都给出了源码和说明,这些源码本身具备复用的价值,可以直接用于工程项目。另外,笔者还在GitHub上开辟了专门的讨论区,便于读者进行技术交流。
本书面向的读者
本书主要面向以下读者:
? 大数据技术从业者
? AI技术开发人员
? 准备上手数据采集、数据挖掘与数据分析的初学者
? 大数据及相关专业的学生
? 培训机构的学员
源码下载和说明
本书的源码支持GitHub下载,下载地址:
https://github.com/bainingchao/PyDataPreprocessing
关于源码的说明:
? PyDataPreprocessing:本书源代码的根目标。
? Chapter+数字:分别代表对应章节的源码。
? Corpus:本书所有的训练语料。
? Files:所有文件文档。
? Packages:本书所需要下载的工具包。
本书作者介绍
本书主要由白宁超、唐聃、文俊编写,参与编写的还有田霖、黄河、于小明。
? 白宁超 大数据工程师,现任职于四川省计算机研究院,研究方向包括数据分析、自然语言处理和深度学习。近3年,主持和参与国家自然基金项目和四川省科技支撑计划项目多项,出版专著一部。
? 唐 聃 教授,硕士生导师,成都信息工程大学软件工程学院院长,四川省学术和技术带头人后备人选。研究方向包括编码理论与人工智能,《自然语言处理理论与实战》作者。
? 文 俊 硕士,大数据算法工程师,现任职于成都广播电视台橙视传媒大数据中心。曾以技术总监身份主持研发多个商业项目,负责公司核心算法模型构建。主要研究方向包括数据挖掘、自然语言处理、深度学习以及云计算。
? 田 霖 成都东软学院计算机科学与工程系教师,研究方向包括数据挖掘和强化学习,曾参与四川省智慧环保、四川省涉税信息等多个省级项目。
? 黄 河 博士,重庆大学语言认知及语言应用研究基地研究员,研究方向为计算语言学、语料库处理技术、深度学习和数据挖掘。
? 于小明 讲师,主治医生,现任职于河南省中医院(河南中医药大学第二附属医院),主要从事医疗领域大数据分析,临床泌尿外科小领域本体构建等方面的研究工作。
在本书编写过程中,参考了很多相关资料,在此对他们的贡献表示感谢,虽笔者已尽心竭力,但限于水平和时间仓促,书中难免存在错漏,欢迎读者批评指正。
联系邮箱:booksaga@163.com
作者
2019年5月
