The present invention relates to a method of text retrieval and text retrieval device, the text retrieval method comprises the following steps: electronic document recognition user opens in ideographic description sequence; the identified ideographic description sequence into an extended ideographic description sequence, and the extended ideographic description sequence to create an extended ideographic description sequence database. Based on which, the extended ideographic description sequence from two yuan ideographic descriptors and basic components; to judge whether the input text is to be retrieved as ideographic description sequence, which, when the text retrieval as ideographic description sequence, the retrieved text into extended ideographic description sequence. And in the extended ideographic description of sequences were retrieved; when the text is not to retrieve ideographic description sequence When the column is in, the pending document is retrieved in the electronic document.
【技术实现步骤摘要】
文字检索方法及文字检索装置
本专利技术涉及文字信息处理技术,尤其涉及一种能够对统一表意文字进行检索的文字检索方法及文字检索装置。
技术介绍
随着计算机技术的发展,为实现计算机跨语言、跨平台的文本转换及处理,国际组织制定并公布了Unicode(万国码、统一码)编码系统,其中包括中日韩统一表意文字(CJKUnitedIdeographs)。然而,汉字的数量庞大,结构复杂,尽管Unicode标准已经包括了70000多个汉字符号,但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为“集外字”。虽然Unicode标准持续不断的对集外字进行分类编码,分配码位,但是汉字是一个开放的集合,可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收字量无法从根本上解决CJK(中日韩)文字的编码问题。有鉴于此,Unicode标准定义了表意文字描述序列IDS(IdeographicDescriptionCharactersSequence)和表意文字描述符IDC(IdeographicDescriptionCharacters)。表意文字描述的算法依据是:理论上所有的汉字都可以拆分为更小的部件,而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC,再配合已有编码的文字,即可描述绝大多数未被编码的集外字。在现有规则下,表意文字描述符IDC共有12个,对应描述12种文字结构,例如,左右结构、上下结构、左中右结构、上中下结构、全包围结构、上三包围结构、下三包围结构、左三包围结构、左上包围结构、右上包围结构、左下包围结构合交叉结构, ...
【技术保护点】
一种文字检索方法,包括:识别用户打开的电子文档中的表意文字描述序列;将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;判断所输入的待检索文字是否为表意文字描述序列,其中,当所述待检索文字为表意文字描述序列时,将所述待检索文字转换为扩展表意文字描述序列,并在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,在所述电子文档中检索所述待检索文字。
【技术特征摘要】
1.一种文字检索方法,包括:识别用户打开的电子文档中的表意文字描述序列;将所识别的表意文字描述序列转换为扩展表意文字描述序列,并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库,其中,所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成;判断所输入的待检索文字是否为表意文字描述序列,其中,当所述待检索文字为表意文字描述序列时,将所述待检索文字转换为扩展表意文字描述序列,并在所述扩展表意文字描述序列库中进行检索;当所述待检索文字不是表意文字描述序列时,在所述电子文档中检索所述待检索文字。2.根据权利要求1所述的文字检索方法,所述在所述扩展表意文字描述序列库中进行检索还包括判断检索是否成功,如果是,输出检索结果,如果否,在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,其中,当检索到与所述待检索文字相对应的编码字符时,在所述电子文档中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的编码字符时,确定所述待检索文字并不存在于所述电子文档中,并输出检索结果。3.根据权利要求1所述的文字检索方法,所述在所述电子文档中检索所述待检索文字还包括:判断检索是否成功,如果是,则输出检索结果,如果否,在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列,其中,当检索到与所述待检索文字相对应的扩展表意文字描述序列时,在所述扩展表意文字描述序列库中进行检索,并输出检索结果;当没有检索到与所述待检索文字相对应的扩展表意文字描述序列时,确定所述待检索文字未存在于所述电子文档中,并输出检索结果。4.根据权利要求1所述的文字检索方法,所述创建扩展表意文字描述序列库还包括通过将所述表意文字描述序列中的三元表意文字描述符替换为两个二元表意文字描述符来获得所述扩展表意文字描述序列。5.根据权利要求4所述的文字检索方法,所述创建扩展表意文字描述序列库进一步包括:如果所述扩展表意文字描述序列中相邻两个二元表意文字描述符相同,则将所述相邻两个二元表意文字描述符后的表意文字描述序列前移至所述相邻两个二元表意文字描述符之间。6.根据权利要求1-5所述的文字...
【专利技术属性】
技术研发人员:王晓健,江世盛,
申请(专利权)人:北京汉王数字科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。