文字检索方法及装置制造方法及图纸

技术编号:14984655 阅读:199 留言:0更新日期:2017-04-03 16:12
本发明专利技术涉及一种利用图像匹配进行文字检索的方法及装置。所述方法包括:输入待检索文字的表意文字描述序列;对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败则启动图像匹配方法;即解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK字符绘制第一文字图像;以及遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像。最后,将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。所述检索方法及装置能够避免因表意文字描述序列的歧义所导致的文字检索失败。

【技术实现步骤摘要】

本专利技术涉及一种文字信息处理技术,尤其涉及一种利用图像匹配进行文字检索的方法及装置。
技术介绍
随着计算机技术的发展,为实现计算机跨语言、跨平台的文本转换及处理,国际组织制定并公布了Unicode(万国码、统一码)编码系统,其中包括中日韩统一表意文字符号(CJKUnitedIdeographs)。然而,汉字的数量庞大,结构复杂,尽管Unicode标准已经包括了70000多个汉字符号,但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为“集外字”。虽然Unicode标准持续不断的对集外字进行分类编码,分配码位,但是汉字是一个开放的集合,可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收字量无法从根本上解决CJK(中日韩)文字的编码问题。有鉴于此,Unicode标准定义了表意文字描述序列IDS(IdeographicDescriptionCharactersSequence)和表意文字描述符IDC(IdeographicDescriptionCharacters)。表意文字描述(IdeographicDescription)的算法依据是:理论上所有的汉字都可以拆分为更小的部件,而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC,再配合已有编码的文字,即可描述绝大多数未被编码的集外字。其中,表意文字描述符IDC共有12个,对应描述12种文字结构,码位区间从U+2FF0到U+2FFB,如表1所示。表1.IDC编码表因此,表意文字描述序列IDS由一系列的表意文字描述符IDC以及已有编码的文字组成,来描述未编码的集外字。表意文字描述序列IDS的语法比较简单,只要求三元IDC(U+2FF2和U+2FF3)后面必须有3个IDS,而二元IDC(U+2FF2和U+2FF3以外的其他IDC)后面必须有2个IDS,IDS中除了IDC以外必须是一元CJK字符。此外,IDS还有2个长度限制,即:①序列长度不可超过16个Unicode编码;②如果没有表意文字描述符作为间隔,构成序列的部件或者偏旁不能超过6个。图6示出了一些表意文字描述序列IDS的例子。如图6示,以字为例,其表意文字描述序列由两个IDC(2FF1)、(2FF0)以及已有编码的文字“鳥”(9CE5)、“龜”(9F9C)以及“火”(706B)构成。表意文字描述序列IDS为集外字的描述提供了一种标准的文本交换机制。在制作电子文档时,尤其是在古籍电子化的过程中,可对文档中的集外字采用表意文字描述序列IDS来进行描述,同时收录该集外字的抠图。当使用阅读软件阅读该电子文档时,读者可看到集外字的抠图,还可在文本搜索框中输入IDS,来检索集外字。然而,使用表意文字描述序列IDS描述集外字可能存在歧义性,即由于一个集外字可能用多种表意文字描述序列IDS来表示,因此,该表示方式易出现歧义。具体地,由于表意文字描述序列本身可以继续被分解,也由于在Unicode标准中有些构字部件重复出现。图7示出了的三种不同的IDS描述方法。如图7所示,该字可以分解为“井”+“蛙”结构(IDC)、“井”+“虫”+“圭”结构(IDC)的结构以及“井”+“虫”+“土”+“土”的结构(IDC)。因此,在阅读软件中对集外字进行IDS检索时,遇到这类描述序列存在歧义性的集外字,往往会出现文档中存在待检索的集外字,但输入的IDS与文档中集外字的描述不一致,而检索不到该字的问题。
技术实现思路
本专利技术在考虑现有技术存在的缺陷的基础上,提供一种基于图像匹配的文字检索方法,能够避免因表意文字描述序列IDS描述的歧义性所导致的文字检索失败的问题。根据本专利技术的一方面,提供一种文字检索方法,其特征在于,包括:S1:输入待检索文字的表意文字描述序列;S2:对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败,则执行S3;S3:解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK字符绘制第一文字图像;S4:遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像;S5:将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。进一步地,步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现的文本匹配。进一步地,步骤S3中,所述解析包括:将表意文字描述序列拆分成多个组图动作,每个该组图动作包括一个表意文字描述符和一组文字部件。进一步地,步骤S3中,所述绘制包括:准备各文字部件的图像;以及按照每个组图动作中的表意文字描述符所描述的文字结构,从最内层动作开始,进行组图,其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作,按照表意文字描述序列中表意文字描述符从右到左的顺序,最左侧的表意文字描述符所在的动作为最外层动作。按照由内层到外层的顺序,逐层进行组图。进一步地,准备各文字部件的图像包括:对每个文字部件,利用预定字体渲染出预定像素大小的单个文字图像;以及勾勒出该预定大小的文字图像的文字轮廓。进一步地,所述组图的具体方式为:对于上下结构的文字,将各文字部件按照上下顺序逐个叠加,使得相邻文字部件之间的轮廓间的间距大于等于预定距离;对于左右结构的文字,将各文字部件按照左右顺序逐个叠加,文字部件之间的轮廓间间距大于等于上述预定距离;对于包围结构的文字,对被包围文字部件进行宽高等比例缩小,将缩小后的被包围文字部件与包围文字部件进行叠加,文字部件之间的轮廓间间距大于等于上述预定距离;以及对于交叉结构的文字,将两个文字部件直接叠加。进一步地,在步骤S4中,存储绘制的该第二文字图像,从而构建包括该第二文字图像的数据库。进一步地,步骤S5中,所述根据匹配结果确定检索结果具体包括:如果匹配的可信度达到阈值,则将匹配到的表意文字描述序列作为所述检索结果;否则返回上述步骤S4,继续遍历电子文档中的已有表意文字描述序列,绘制其第二文字图像,并与第一文字图像进行匹配;以及直到完成整份电子文档中已有表意文字描述序列的遍历、文字图像描绘以及图像匹配,均匹配不成功,则认为待检索的表意文字描述序列不存在于此电子文档中,检索结束。根据本专利技术的另一方面,提供一种文字检索装置,包括:输入模块,输入待检索的表意文字描述序列;文本匹配模块,对所述待检索文字的表意文字描述序列进行文本匹配;本文档来自技高网
...

【技术保护点】
一种文字检索方法,其特征在于,包括:S1:输入待检索文字的表意文字描述序列;S2:对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败,则执行S3;S3:解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK字符绘制第一文字图像;S4:遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像;S5:将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。

【技术特征摘要】
1.一种文字检索方法,其特征在于,包括:
S1:输入待检索文字的表意文字描述序列;
S2:对所述待检索文字的表意文字描述序列进行文本匹配,若文本匹配失败,则执行
S3;
S3:解析所述待检索文字的表意文字描述序列,根据解析获得的表意文字描述符和CJK
字符绘制第一文字图像;
S4:遍历文档中存在的表意文字描述序列,对每次遍历到的表意文字描述序列进行解
析,根据解析获得的表意文字描述符和CJK字符绘制第二文字图像;
S5:将所述第一文字图像与第二文字图像进行图像匹配,根据匹配结果确定检索结果。
2.如权利要求1所述的方法,其特征在于,其中
步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现
的文本匹配。
3.如权利要求1或2所述的方法,其特征在于,其中:
步骤S3中,所述解析包括:将表意文字描述序列拆分成多个组图动作,每个该组图动作
包括一个表意文字描述符和一组文字部件。
4.如权利要求3所述的方法,其特征在于,其中
步骤S3中,所述绘制包括:
准备各文字部件的图像;以及
按照每个组图动作中的表意文字描述符所描述的文字结构,从最内层动作开始,进行
组图,其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作,按照
表意文字描述序列中表意文字描述符从右到左的顺序,最左侧的表意文字描述符所在的动
作为最外层动作,按照由内层到外层的顺序,逐层进行组图。
5.如权利要求4所述的方法,其特征在于,其中
准备各文字部件的图像包括:对每个文字部件,利用预定字体渲染出预定像素大小的
单个文字图像;以及勾勒出该预定大小的文字图像的文字轮廓。
6.如权利要求5所述的方法,其特征在于,其中
所述组图的具体方式为:
对于上下结构的文字,将各文字部件按照上下顺序逐个叠加,使得相邻文字部件之间
...

【专利技术属性】
技术研发人员:王晓健江世盛
申请(专利权)人:北京汉王数字科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1