文字识别:原理、方法和实践
体系完整有广度,理论分析有深度,水平方法有高度

作者:丁晓青 王言伟等

丛书名:清华大学学术专著

定价:128元

印次:1-1

ISBN:9787302454625

出版日期:2017.04.01

印刷日期:2017.03.21

图书责编:薛慧

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书基于模式识别和信息熵理论,全面、系统和深入地分析介绍了各种汉字、多文种文字识别的理论和方法,以及解决复杂多变的多文种文字和文档识别中关键问题的有效算法和具体实践。本书可以作为相关专业研究生的参考书,也可以供从事模式识别、文字和文档识别等计算机信息处理研究的科研人员和从事相关产品开发的工程技术人员阅读参考。

《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。

文字是人类信息最重要的载体和最集中的表象,记载了几千年人类的文明和历史,对五千年中华文明的传承和发展起着极其关键的作用。当今人类社会进入快速计算机网络信息化的时代,信息的全球化和大数据资源的获取,首先要求解决和实现各类信息的数字化,特别是文字和文档信息的计算机数字化。计算机信息化,就是要求计算机也能像人一样识图认字:使计算机具有对图像或文字表象的自动识别的能力。也就是说,文字和文档识别信息化也是人工智能和计算机视觉需要解决的重要问题。20世纪60年代,国际上就十分重视对文字识别的研究。我国汉字数量巨大、结构复杂,难以输入计算机,这成为汉字信息化的拦路虎,因此,汉字识别及海量文档的计算机数字化研究极为紧迫,并具有特殊的历史意义。作者所在的清华大学智能图文信息处理研究室从20世纪80年代就开始了汉字等多文种文字和文档识别信息化的研究和探索,数十位师生持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得领先的研究成果,并将研究成果在世界范围推广应用。这些经历和成果成为本书撰写的直接动因。《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。全书包括11章,各章内容如下: 第1章绪论介绍文字的基本属性和特点;第2章模式识别和模式识别信息熵理论,揭示模式识别的核心互信息,汉字和汉字文本的信息熵;第3章介绍汉字识别的特征提取和优良的汉字识别特征;第4章介...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目录第1章绪论1.1引言1.2文字和汉字1.2.1文字的代码表示1.2.2汉字的字体字形1.2.3汉字的特点 1.2.4中文信息处理1.3文字识别和汉字识别1.4文字识别研究历程1.5文字识别分类1.5.1按照不同文种文字和文档的识别技术分类1.5.2按照获取图像方式和识别对象不同分类1.5.3单个字符识别和文档篇章识别1.6文字识别与笔迹鉴别1.7汉字识别的基本方法——基于视觉感知的汉字识别方法1.8关于本书参考文献第2章模式识别和模式识别信息熵理论2.1引言: 模式与模式识别2.2基于贝叶斯统计决策的模式识别2.3模式识别统一信息熵理论2.3.1特征和类别及其相关信息熵2.3.2后验熵:最优贝叶斯分类器误识率的上限2.3.3模式识别的学习与识别信息过程2.3.4互信息:决定模式识别性能的鉴别熵2.4正态分布条件下的模式识别信息熵系统2.5最大互信息鉴别分析(互信息鉴别子空间模式识别) 2.5.1最大互信息子空间线性鉴别分析方法2.5.2最大互信息线性鉴别分析与线性鉴别分析LDA2.6特征选择的信息熵准则2.6.1基于错误概率的类别可分性准则2.6.2基于有效互信息的类别可分性准则2.7从信息熵分析看提高识别性能的途径2.8汉字集合和汉字文本的信息熵2.8.1汉字集合的信息熵2.8.2汉字文本的信息熵和汉字的极限熵2.9本章小结参考文献第3章汉字识别的特征提取3.1引言3.2汉字字符图像规一化预处理3.2.1线性规一化3.2.2非线性规一化3.2.3基于整体密度均衡的非线性规一化3.3汉字识别中的特征抽取3.3.1结构特征3.3.2统计特征3.4汉字识别特征提取研究的发展历程...
《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。