文档检索装置、文档检索系统、文档检索程序、以及文档检索方法制造方法及图纸

技术编号:37144776 阅读:37 留言:0更新日期:2023-04-06 21:55
保持文档检索的正确性与网罗性的均衡、提高精度。本发明专利技术一实施方式的文档检索装置包括:输入接受部,接受文档检索的关键词的输入;文档检索部,取得与所述关键词的一部分字符被置换成通配符后的字符串一致的命中字符串,以及所述命中字符串前后的字符串,并根据所述命中字符串以及所述命中字符串前后的字符串,算出所述命中字符串的似然度;检索结果显示部,根据所述似然度,输出文档检索的结果。输出文档检索的结果。输出文档检索的结果。

【技术实现步骤摘要】
【国外来华专利技术】文档检索装置、文档检索系统、文档检索程序、以及文档检索方法


[0001]本申请根据2020年7月22日向日本专利厅提交的基础申请2020

125341号主张优先权,并参照引用其全部内容。
[0002]本专利技术涉及一种文档检索装置、文档检索系统、文档检索程序以及文档检索方法。

技术介绍

[0003]现已有根据用户所指定的关键词对文档进行检索的文档检索。文档检索中,已有抽出与关键词完全一致的字符串的手法,称之为完全一致检索,以及抽出与关键词的一部分一致的字符串的手法,称之为部分一致检索(例如,专利文献1)。
[0004]例如,在文档包含错字的情况下,若是完全一致检索,无法抽出用户所希望的字符串,会造成检索遗漏。相对而言,若是部分一致检索,则能够对文档内进行网罗性的检索。
[0005]<现有技术文献>
[0006]<专利文献>
[0007]专利文献1:日本专利6374289号公报

技术实现思路

[0008]<本专利技术要解决的问题>
[0009]然而,按照部分一致检索,由于字符串只要与关键词的一部分一致就会被抽出,因此有时会抽出与关键词无关的字符串。即,完全一致检索胜在正确性,但欠缺网罗性,而部分一致检索胜在网罗性,但欠缺正确性。
[0010]对此,本专利技术的目的在于保持文档检索的正确性与网罗性的均衡,提高精度。
[0011]<用于解决问题的手段>
[0012][1]文档检索装置包括:输入接受部,接受文档检索的关键词的输入;文档检索部,从文档中取得与所述关键词的一部分字符被置换成通配符之后的字符串一致的命中字符串,以及所述命中字符串前后的字符串,并根据所述命中字符串以及所述命中字符串前后的字符串,算出所述命中字符串的似然度;检索结果显示部,根据所述似然度,输出文档检索的结果。
[0013][2]如[1]所述的文档检索装置,所述文档检索部根据顺方向似然度,算出所述命中字符串的似然度。
[0014][3]如[1]所述的文档检索装置,所述文档检索部根据顺方向似然度以及逆方向似然度,算出所述命中字符串的似然度。
[0015][4]如[1]至[3]中的任一项所述的文档检索装置,所述文档检索部根据所述命中字符串的各字符的似然度,算出所述命中字符串的似然度。
[0016][5]如[4]所述的文档检索装置,所述文档检索部将所述命中字符串中的并非所述通配符的字符的似然度视为百分之100。
[0017][6]如[1]至[5]中的任一项所述的文档检索装置,所述输入接受部接受所述命中字符串的似然度的阈值的输入,所述检索结果显示部显示所述阈值以上的似然度的所述命中字符串,以及包含所述命中字符串的周边文章。
[0018][7]如[6]所述的文档检索装置,所述检索结果显示部还显示与所述阈值以上的似然度的所述命中字符串以及包含所述命中字符串的周边文章对应的手写文档的图像。
[0019][8]如[1]至[7]中的任一项所述的文档检索装置,所述检索结果显示部按照所述命中字符串的似然度从高至低的顺序输出所述文档检索的结果。
[0020][9]包含文档检索装置以及用户终端的文档检索系统中,所述文档检索装置包括;输入接受部,从所述用户终端接受文档检索的关键词的输入;文档检索部,从文档中取得与所述关键词的一部分字符被置换成通配符后的字符串一致的命中字符串,以及包含所述命中字符串前后的字符串,并根据所述命中字符串以及所述命中字符串前后的字符串,算出所述命中字符串的似然度;检索结果显示部,根据所述似然度,将文档检索的结果输出到所述用户终端。
[0021][10]使计算机作为输入接受部、文档检索部以及检索结果显示部发挥功能的程序,所述输入接受部接受文档检索的关键词的输入,所述文档检索部从文档取得与所述关键词的一部分字符被置换成通配符后的字符串一致的命中字符串,以及所述命中字符串前后的字符串,并根据所述命中字符串以及所述命中字符串前后的字符串,算出所述命中字符串的似然度,所述检索结果显示部根据所述似然度,输出文档检索的结果。
[0022][11]由文档检索装置执行的方法,包括:接受文档检索的关键词的输入的步骤;从文档取得与所述关键词的一部分字符被置换成通配符后的字符串一致的命中字符串以及所述命中字符串前后的字符串,并根据所述命中字符串以及所述命中字符串前后的字符串,算出所述命中字符串的似然度的步骤;根据所述似然度输出文档检索的结果的步骤。
[0023]<专利技术的效果>
[0024]本专利技术能够保持文档检索的正确性与网罗性的均衡、提高精度。
附图说明
[0025]图1是示出包含本专利技术一实施方式的文档检索装置的整体系统结构的图。
[0026]图2是示出本专利技术一实施方式的文档检索装置的字符生成模型构建部的功能块的图。
[0027]图3是本专利技术一实施方式的字符生成模型的构建处理流程的流程图。
[0028]图4是示出本专利技术一实施方式的文档检索装置的文档检索功能部的功能块的图。
[0029]图5是示出本专利技术一实施方式的文档检索处理流程的流程图。
[0030]图6是本专利技术一实施方式的顺方向字符生成模型的学习数据的一例。
[0031]图7是本专利技术一实施方式的逆方向字符生成模型的学习数据的一例。
[0032]图8是用于说明本专利技术一实施方式的检索的图。
[0033]图9是用于说明算出本专利技术一实施方式的似然度的图。
[0034]图10是用于比较本专利技术一实施方式的检索精度的图。
[0035]图11是示出本专利技术一实施方式的文档检索装置、用户终端的硬件结构的图。
具体实施方式
[0036]以下,关于各实施方式,参照附图进行说明。在本说明书以及附图中,对实质上具有相同功能结构的结构要素,采用相同符号,并省略重复的说明。
[0037]<用语的说明>
[0038]本专利技术能够应用于检索任意的1个或多个文档的文档检索。例如,“文档”是指利用OCR(Optical character recognition)对手写文档的图像进行变换而成的文档,利用文档写作软件作成的文档等。“文档”有可能包含错字。
[0039]<系统结构>
[0040]图1是示出包含本专利技术一实施方式的文档检索装置10的整体系统结构的图。如图1所示,文档检索系统1包括文档检索装置10与用户终端20。文档检索装置10能够通过任意的网络与用户终端20进行数据的收发。以下,对这些分别进行说明。
[0041]文档检索装置10是进行文档检索处理的装置(例如,服务器)。文档检索装置10包括输入接受部、文档检索部以及检索结果显示部。具体而言,文档检索装置10能够包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种文档检索装置,包括:输入接受部,接受文档检索的关键词的输入;文档检索部,从文档中取得与所述关键词的一部分字符被置换成通配符之后的字符串一致的命中字符串、以及所述命中字符串前后的字符串,并根据所述命中字符串以及所述命中字符串前后的字符串,算出所述命中字符串的似然度;及检索结果显示部,根据所述似然度,输出文档检索的结果。2.根据权利要求1所述的文档检索装置,其中,所述文档检索部根据顺方向似然度,算出所述命中字符串的似然度。3.根据权利要求1所述的文档检索装置,其中,所述文档检索部根据顺方向似然度以及逆方向似然度,算出所述命中字符串的似然度。4.根据权利要求1至3中的任一项所述的文档检索装置,其中,所述文档检索部根据所述命中字符串的各字符的似然度,算出所述命中字符串的似然度。5.根据权利要求4所述的文档检索装置,其中,所述文档检索部将所述命中字符串中的并非是所述通配符的字符的似然度视为百分之100。6.根据权利要求1至5中的任一项所述的文档检索装置,其中,所述输入接受部接受所述命中字符串的似然度的阈值的输入,所述检索结果显示部显示所述阈值以上的似然度的所述命中字符串、以及包含所述命中字符串的周边文章。7.根据权利要求6所述的文档检索装置,其中,所述检索结果显示部还显示与所述阈值以上的似然度的所述命中字符串以及包含所述命中字符串的周边文章对应的手写文档的图像。8.根据权利要求1至7中的任一项所述...

【专利技术属性】
技术研发人员:南拓也奥野好成
申请(专利权)人:昭和电工株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1