图书前言

随着互联网的快速发展以及微博等社交媒体的普及应用,个人获取、发布和管理的信息量呈爆炸式增长。尽管分享图片和视频在社交网络中已很普遍,但人们可能更倾向于使用文字发表对某一事件或某件商品的看法和评价,这些主观性的文本可以是用户对某个产品或服务的评论,也可以是公众对某个热点事件的观点。由于立场不同,人们对生活中某类事件所持的态度可能会有差异(即使是针对类似事件)。这些海量短文本中可能蕴含着人们对某些事件的情感、情绪、立场、观点、看法等主观态度。如何从文本挖掘角度(可能要借助部分基于规则的方法)并借助机器学习、深度学习与自然语言处理等技术帮助人们分析、挖掘和利用这些富含情感信息的文本信息,已成为当前IT业的研究热点之一。

情感计算关注的科学问题是将对情感的研究从感性认知上升为可计算模型。有效理解和分析社交网络开放域文本中蕴含的情绪和立场倾向性,完成情感判断、情绪诱因分析、情绪分类、用户立场倾向性分析等是必要的。认知心理学研究表明,情感是与个体社会性需要相联系的主观体验,具有个性化、稳定性等特点;情绪是以个体愿望和需要为中介的心理活动,具有情境性、暂时性等特点,它反映了人们的心理状态,是人们对客观事物是否满足其需要而产生的主观体验,它易受外部环境、认知过程等因素影响;相比传统的情感分析方法,立场分析致力于自动识别在线用户所发表评论对一个特定话题支持与否的态度。通过情感计算,了解大规模人群情感及其倾向性的特点,可使之成为决策中的重要参考依据。例如,在商业决策领域,通过对海量用户评论的观点挖掘,能够获取可靠的用户反馈信息,了解产品的优缺点,这样也有助于深刻理解用户的真实需求,实现精准营销。通过对微博等社交网络的文本情感计算,也可为相关部门了解社情民意提供帮助。相关研究也是面向和谐人机交互领域中不可或缺的重要内容,它对提高人机交互、自然语言理解的能力具有重要意义。

本书涉及对文本大数据的情感分析方法,即利用自然语言处理、情感计算等相关技术对社交网络文本中可能蕴含的情感进行分析,如分析可能存在的情绪组成及其诱因(因为情绪诱因可能是情绪产生的条件之一),完成立场分析,构建合适的文本表示方法,进而完成情感分析等。部分章节的语料选择微博文本作为研究对象,主要原因有: 微博文本内容短小且文字情绪化、口语化、内容碎片化等特点明显,常规文本挖掘算法难以发挥有效作用;人们的观点表达方式更加多样,理解情绪表达需要更多的上下文;面对热门事件或开放性话题,导致情绪出现的原因可能比较复杂。另外,通过引用相关研究文献,本书对自然语言处理技术、文本情感与情绪研究等进行了综述,并将论述的重点放在相关方法的实现思路上,以便读者更好地了解文本情感分析的研究背景和国内外研究进展。第4~6章为本书主要内容。第4章介绍面向微博文本的情绪及其诱因分析,利用规则和自然语言处理技术,对情绪产生的诱因进行了探索,建立了基于微博文本的情绪诱因模型,使用基于贝叶斯概率模型实现情绪诱因成分的比例计算,并通过提取语言特征实现了对基础情绪的分类。第5章是面向话题评论的立场分析,给出一种基于深度学习的立场倾向性分类模型,其中包含双向长短期记忆网络、注意力机制等神经网络,从训练数据中提取文本特征,并筛选出值得关注的部分,形成最终文本表示并执行分类;提出一种基于跨领域迁移学习的新话题评论预测方法。第6章给出基于LSTM的文本表示方法并完成了情感分析,在对词语间上下文依赖特征信息进行建模的过程中,提出对称式基于注意力机制的双向LSTM模型,通过结合向量化的词性信息强化词语间上下文依赖特征信息;在对实体方面和意见文本间上下文依赖特征信息进行建模过程中,提出基于两阶注意力机制的文本表示方法,实现对特征权重分布的生成和修正处理;在对话题和意见文本间上下文依赖特征信息进行建模过程中,提出了一个从词语层面对话题进行建模的基于注意力聚合网络的文本表示方法。

〖1〗〖2〗〖1〗〖3〗作者团队以认真、严谨的科学态度描述了各种方法以及取得的效果,部分章节来源于作者团队已发表的相关论文。另外,在本书的写作与相关科研课题的研究工作中,也得到多方面的支持与帮助。部分科研课题的研究以及项目开发得到北京理工大学张华平副教授、河北科技大学吴会丛教授、桂林电子科技大学文益民教授的指导。作者还要感谢周二亮、谢宇翔、杨聪聪、江跃华、李明奇、侯雪飞、杨铠成、李娇娥、吴林芳、朱玉、杨凯、徐倩等学生,有些内容来自这些学生参与完成的课题,还有一些研究生参与了部分早期资料的整理工作,感谢他们的辛勤付出。

本书得到国家重点研发计划项目(编号: 2018YFC1707600)、2018年国家自然科学基金(编号: 61772075)、2017年河北省自然科学基金(编号: F2017208012)、2017年教育部人文社会科学研究专项任务项目(编号: 17JDGC022)的支持。本书借鉴了国内外众多的机器学习、深度学习、自然语言处理方面的研究和相关网站的内容。本书的顺利完成也得益于参阅了大量的相关工作及研究成果的文献,在此谨向这些文献的作者以及为本书提供帮助的老师、同仁、学生和课题组成员,以及那些由于篇幅所限未在参考文献中提及的相关文献作者致以诚挚的谢意和崇高的敬意。在本书写作过程中,也得到清华大学出版社焦虹、常建丽等的大力支持和帮助,在此一并表示衷心感谢。

由于我们的学识、水平有限,书中不妥之处在所难免,恳请广大读者批评指正。

作者

2019年10月