目录
第1章绪论1
1.1发展历程1
1.2处理流程2
1.3文本数据的NLP处理流程3
1.4代码实现4
1.4.1数据清洗与标准化4
1.4.2数据分割以及特征提取与表示5
1.4.3词性标注6
1.4.4关键词提取7
1.4.5命名实体识别8
1.5小结9
练习题9
第2章Python语言概述11
2.1初识Python语言11
2.2数据类型12
2.2.1数值型13
2.2.2字符串13
2.2.3列表15
2.2.4元组19
2.2.5布尔型20
2.2.6集合20
2.2.7字典22
2.2.8变量23
2.2.9基本的输入输出函数24
2.3运算符25
2.3.1算术运算符25
2.3.2比较运算符26
2.3.3逻辑运算符27
2.3.4位运算符28
2.3.5运算符的优先级28
2.3.6复合赋值运算符29
2.4控制结构29
2.4.1选择结构29
2.4.2循环结构30
2.4.3break语句和continue语句31
2.4.4应用举例32
2.5函数33
2.5.1函数的参数类型34
2.5.2参数解包36
2.5.3lambda函数36
2.5.4变量的作用域36
2.6类与面向对象37
2.6.1实例属性与类属性38
2.6.2实例方法与类方法38
2.6.3类的继承39
2.6.4类的特殊方法40
2.6.5模块与包40
2.6.6小结41
第3章常用数据集43
3.1小数据集43
3.1.1糖尿病数据集44
3.1.2手写数字数据集44
3.1.3鸢尾花数据集45
3.1.4体能训练数据集46
3.2大数据集47
3.2.1Olivetti人脸数据集48
3.2.220个新闻组数据集49
3.2.3LFW数据集与RCV1数据集50
3.2.4加州住房价格数据集51
3.2.5MNIST手写数字数据集53
3.3生成数据集53
3.3.1make_regression与make_blobs54
3.3.2make_classification55
3.3.3make_circles与make_moons数据集56
3.3.4瑞士卷57
3.4小结58
练习题58
第4章语料库60
4.1语料库概述60
4.2中文语料库61
4.3英文语料库61
4.3.1古腾堡语料库61
4.3.2网络文本语料库和即时消息聊天语料库63
4.3.3布朗语料库63
4.3.4路透社语料库65
4.3.5就职演讲语料库65
4.4文本语料库66
4.4.1文本语料库概述66
4.4.2文本语料库的结构67
4.5小结69
练习题69
第5章数据分析与可视化70
5.1NumPy70
5.1.1创建数组71
5.1.2算术运算与线性代数72
5.1.3通用函数74
5.1.4索引、切片和迭代75
5.1.5形状变换77
5.1.6堆叠与分割78
5.1.7广播78
5.2Pandas79
5.2.1Series79
5.2.2DataFrame81
5.3Matplotlib84
5.3.1绘制线图85
5.3.2中文字体87
5.3.3输出文本88
5.3.4绘制子图91
5.3.5饼图、散点图和直方图91
5.4小结93
练习题93
第6章中英文分词96
6.1英文分词96
6.2中文分词97
6.2.1基于词典的分词方法97
6.2.2基于统计模型的分词方法100
6.3中文分词工具102
6.4小结104
练习题104
第7章词性标注106
7.1标注语料库106
7.2字典108
7.3词性标注器110
7.3.1默认标注器110
7.3.2正则表达式标注器111
7.3.3查找标注器112
7.3.4Unigram标注器113
7.3.5Ngram标注器114
7.3.6组合标注器115
7.4小结116
练习题116
第8章特征工程 119
8.1特征缩放119
8.1.1特征归一化120
8.1.2特征标准化120
8.1.3特征鲁棒化121
8.1.4特征规范化122
8.2特征编码123
8.2.1独热编码123
8.2.2其他非数值数据编码124
8.3特征提取125
8.4小结127
练习题128
第9章文本分类129
9.1文本分类系统及其应用129
9.2文本预处理流程130
9.3应用举例132
9.3.1英文文本分类132
9.3.2中文文本分类134
9.4朴素贝叶斯137
9.5性能评价指标138
9.5.1混淆矩阵139
9.5.2准确率140
9.5.3精度、召回率和F1值140
9.5.4ROC曲线与AUC面积141
9.5.5分类报告143
9.6小结144
练习题145
第10章文本聚类147
10.1距离计算147
10.2聚类算法149
10.2.1K均值及其变体149
10.2.2其他聚类算法151
10.3应用举例153
10.4性能评价指标154
10.5小结156
练习题156
第11章机器翻译158
11.1机器翻译难在哪儿158
11.2文本对齐159
11.3动态规划160
11.4最小编辑距离161
11.5应用场景与翻译工具164
11.6小结165
练习题166
第12章文本信息提取167
12.1概述167
12.2命名实体识别及关系提取168
12.2.1名词短语块168
12.2.2标签模式170
12.3命名实体识别举例172
12.4分块器的构建与评估173
12.4.1最朴素分块器与正则表达式分块器173
12.4.2ngrams分块器174
12.5实体关系提取176
12.6关键词提取177
12.7小结178
练习题178
第13章情感分析180
13.1短语级的情感分析180
13.2语句级的情感分析182
13.3文档级的情感分析184
13.4主题或领域级的情感分析185
13.5应用举例186
13.6小结188
练习题188
第14章自然语言处理工具箱190
14.1NLTK190
14.2SpaCy192
14.3TextBlob194
14.4HanLP195
14.5Gensim196
14.6Jieba198
14.7小结200
练习题200
附录AJieba分词中常用的词性标签、对应的英文单词(或概念)以及详细的说明202附录B一些常用的NLTK词性标签及其含义204参考文献206