文字检索方法及文字检索装置制造方法及图纸

技术编号:15329834 阅读:79 留言:0更新日期:2017-05-16 13:25
本发明专利技术涉及文字检索方法及文字检索装置,该文字检索方法包括以下步骤:识别用户打开的电子文档中的表意文字描述序列;将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;判断所输入的待检索文字是否为表意文字描述序列,其中,当所述待检索文字为表意文字描述序列时,将所述待检索文字转换为扩展表意文字描述序列,并在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,在所述电子文档中检索所述待检索文字。

Text search method and character search device

The present invention relates to a method of text retrieval and text retrieval device, the text retrieval method comprises the following steps: electronic document recognition user opens in ideographic description sequence; the identified ideographic description sequence into an extended ideographic description sequence, and the extended ideographic description sequence to create an extended ideographic description sequence database. Based on which, the extended ideographic description sequence from two yuan ideographic descriptors and basic components; to judge whether the input text is to be retrieved as ideographic description sequence, which, when the text retrieval as ideographic description sequence, the retrieved text into extended ideographic description sequence. And in the extended ideographic description of sequences were retrieved; when the text is not to retrieve ideographic description sequence When the column is in, the pending document is retrieved in the electronic document.

【技术实现步骤摘要】
文字检索方法及文字检索装置
本专利技术涉及文字信息处理技术,尤其涉及一种能够对统一表意文字进行检索的文字检索方法及文字检索装置。
技术介绍
随着计算机技术的发展,为实现计算机跨语言、跨平台的文本转换及处理,国际组织制定并公布了Unicode(万国码、统一码)编码系统,其中包括中日韩统一表意文字(CJKUnitedIdeographs)。然而,汉字的数量庞大,结构复杂,尽管Unicode标准已经包括了70000多个汉字符号,但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为“集外字”。虽然Unicode标准持续不断的对集外字进行分类编码,分配码位,但是汉字是一个开放的集合,可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收字量无法从根本上解决CJK(中日韩)文字的编码问题。有鉴于此,Unicode标准定义了表意文字描述序列IDS(IdeographicDescriptionCharactersSequence)和表意文字描述符IDC(IdeographicDescriptionCharacters)。表意文字描述的算法依据是:理论上所有的汉字都可以拆分为更小的部件,而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC,再配合已有编码的文字,即可描述绝大多数未被编码的集外字。在现有规则下,表意文字描述符IDC共有12个,对应描述12种文字结构,例如,左右结构、上下结构、左中右结构、上中下结构、全包围结构、上三包围结构、下三包围结构、左三包围结构、左上包围结构、右上包围结构、左下包围结构合交叉结构,码位区间从U+2FF0到U+2FFB,如表1所示。表1.IDC编码表表意文字描述序列IDS由一系列的IDC描述符以及已有编码的文字组成,来描述未编码的集外字。IDS的语法比较简单,只要求三元IDC(U+2FF2和U+2FF3)后面必须有3个IDS,二元IDC(U+2FF2和U+2FF3以外的其他IDC)后面必须有2个IDS,IDS中除了IDC以外必须是一元CJK字符。IDS还有2个长度限制,即:①序列长度不可超过16个Unicode编码;②如果没有表意文字描述符作为间隔,构成序列的部件或者偏旁不能超过6个。图1是表意文字序列的示例。如图1所示,以字为例,其表意文字描述序列由两个IDC(2FF1)、(2FF0)以及已有编码的文字“鳥”(9CE5)、“龜”(9F9C)以及“灬”(706C)构成。IDS为集外字的描述提供了一种标准的文本交换机制。在制作电子文档,尤其是在古籍电子化的过程中,可对文档中的集外字采用IDS描述,同时收录该集外字的抠图。当使用阅读软件阅读该电子文档时,读者可看到集外字的抠图,又可在文本搜索框中输入IDS描述,来检索集外字。然而,使用IDS描述集外字存在歧义性,即一个集外字可能用多种IDS来表示。这是因为IDS本身可以继续被分解。例如,参照图2,图2是集外字的多种IDS描述的示例。如图2所示,所例举的集外字有3种不同的IDS描述。在这种情况下,如果用户在利用电子阅读设备阅读电子文档时需要对某个集外字进行IDS检索时,这种歧义性可能导致检索失败,即电子文档中存在待检索的集外字,但用户输入的IDS描述与该电子文档中的集外字的描述不一致,因此造成检索不到该集外字。
技术实现思路
为解决此问题,本专利技术提出了一种基于扩展IDS的文字检索方法及装置,能够避免因表意文字描述序列IDS描述的歧义性所导致的文字检索失败的问题。本专利技术提供了一种文字检索方法,包括以下步骤:识别用户打开的电子文档中的表意文字描述序列;将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;判断所输入的待检索文字是否为表意文字描述序列,其中,当所述待检索文字为表意文字描述序列时,将所述待检索文字转换为扩展表意文字描述序列,并在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,在所述电子文档中检索所述待检索文字。优选地,所述在所述扩展表意文字描述序列库中进行检索还包括判断检索是否成功,如果是,输出检索结果,如果否,在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,其中,当检索到与所述待检索文字相对应的编码字符时,在所述电子文档中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的编码字符时,确定所述待检索文字并不存在于所述电子文档中,并输出检索结果。优选地,所述在所述电子文档中检索所述待检索文字还包括:判断检索是否成功,如果是,则输出检索结果,如果否,在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,其中,当检索到与所述待检索文字相对应的扩展表意文字描述序列时,在所述扩展表意文字描述序列库中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的扩展表意文字描述序列时,确定所述待检索文字未存在于所述电子文档中,并输出检索结果。优选地,所述创建扩展表意文字描述序列库还包括通过将所述表意文字描述序列中的三元表意文字描述符替换为两个二元表意文字描述符来获得所述扩展表意文字描述序列。优选地,所述创建扩展表意文字描述序列库进一步包括:如果所述扩展表意文字描述序列中相邻两个二元表意文字描述符相同,则将所述相邻两个二元表意文字描述符后的表意文字描述序列前移至所述相邻两个二元表意文字描述符之间。优选地,在所述扩展表意文字描述序列中,文字按照从左到右、从上到下的顺序被依次拆分为由所述二元表意文字描述符和所述基本部件构成的表意文字描述序列。优选地,所述扩展表意文字描述序列字典中不包括所述基本部件。本专利技术还提供了一种文字检索装置,包括:识别单元,其识别用户打开的电子文档中的表意文字描述序列;转换单元,其将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;输入单元,其输入待检索文字;检索单元;控制单元,其判断通过所述输入单元所输入的待检索文字是否为表意文字描述序列,当所述待检索文字为表意文字描述序列时,控制所述转换单元将所述待检索文字转换为扩展表意文字描述序列,并控制检索单元在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,则控制所述检索单元在所述电子文档中检索所述待检索文字。优选地,所述控制单元判断在所述扩展表意文字描述序列库中检索所述扩展表意文字描述序列是否成功,如果是,输出检索结果,如果否,则控制所述检索单元在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,当检索到与所述待检索文字相对应的编码字符时,在所述电子文档中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的编码字符时,确定所述待检索文字并不存在于所述电子文档中,并输出检索结果。优选地,所述控制单元判断在所述电子文档中检索所述待检索本文档来自技高网
...

【技术保护点】
一种文字检索方法,包括:识别用户打开的电子文档中的表意文字描述序列;将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;判断所输入的待检索文字是否为表意文字描述序列,其中,当所述待检索文字为表意文字描述序列时,将所述待检索文字转换为扩展表意文字描述序列,并在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,在所述电子文档中检索所述待检索文字。

【技术特征摘要】
1.一种文字检索方法,包括:识别用户打开的电子文档中的表意文字描述序列;将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;判断所输入的待检索文字是否为表意文字描述序列,其中,当所述待检索文字为表意文字描述序列时,将所述待检索文字转换为扩展表意文字描述序列,并在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,在所述电子文档中检索所述待检索文字。2.根据权利要求1所述的文字检索方法,所述在所述扩展表意文字描述序列库中进行检索还包括判断检索是否成功,如果是,输出检索结果,如果否,在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,其中,当检索到与所述待检索文字相对应的编码字符时,在所述电子文档中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的编码字符时,确定所述待检索文字并不存在于所述电子文档中,并输出检索结果。3.根据权利要求1所述的文字检索方法,所述在所述电子文档中检索所述待检索文字还包括:判断检索是否成功,如果是,则输出检索结果,如果否,在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,其中,当检索到与所述待检索文字相对应的扩展表意文字描述序列时,在所述扩展表意文字描述序列库中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的扩展表意文字描述序列时,确定所述待检索文字未存在于所述电子文档中,并输出检索结果。4.根据权利要求1所述的文字检索方法,所述创建扩展表意文字描述序列库还包括通过将所述表意文字描述序列中的三元表意文字描述符替换为两个二元表意文字描述符来获得所述扩展表意文字描述序列。5.根据权利要求4所述的文字检索方法,所述创建扩展表意文字描述序列库进一步包括:如果所述扩展表意文字描述序列中相邻两个二元表意文字描述符相同,则将所述相邻两个二元表意文字描述符后的表意文字描述序列前移至所述相邻两个二元表意文字描述符之间。6.根据权利要求1-5所述的文字...

【专利技术属性】
技术研发人员:王晓健江世盛
申请(专利权)人:北京汉王数字科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1