知识处理装置以及方法制造方法及图纸

技术编号:11167365 阅读:67 留言:0更新日期:2015-03-19 00:59
实施方式涉及使用知识词典进行字符串的修正的知识处理装置以及方法。实施方式的知识处理装置(10)具备选择部(104)、生成部(106)及修正部(107)。选择部(104)从文件数据选择修正对象字符串。生成部(106)基于属性与修正对象字符串不同的文件数据中的条件生成用字符串,生成候补取得条件。修正部(107)使用按照候补取得条件而从知识词典(N)取得的置换字符串的候补,进行对修正对象字符串的修正。

【技术实现步骤摘要】
本申请享受2013年9月6日在先提出的日本国专利申请第2013 — 185634号的优先权的利益,并且包括在先申请的全部内容。
实施方式涉及使用知识词典进行字符串的修正的知识处理装置、方法以及程序。
技术介绍
例如,作为用于对通过OCR (Optical Character Recognit1n/Reader:光学字符识别)等而字符识别出的字符串进行修正而使其接近正确答案的技术,已知有知识处理。知识处理为,将作为修正的对象的字符串(以下,称为修正对象字符串)与预先准备的知识词典(单词词典)对照,根据需要用储存于知识词典的字符串(单词)置换修正对象字符串,从而进行对修正对象字符串的修正。例如,如果修正对象字符串是表示姓名的姓的字符串,则将修正对象字符串与储存了姓中使用的多个单词的知识词典对照,如果有符合的单词则置换修正对象字符串。 然而,在以往的知识处理中,从知识词典未恰当地筛选出用于置换修正对象字符串的字符串而未获得足够的修正精度的情况较多,要求精度的提高。
技术实现思路
实施方式公开了能够高精度地进行使用了知识词典的字符串的修正的。 实施方式的知识处理装置,使用知识词典进行字符串的修正,该知识处理装置具备:选择部、生成部、修正部。选择部从包含多个字符串且按每个字符串附有该字符串的属性的文件数据,选择修正对象字符串。生成部基于所述文件数据中的、属性与所述修正对象字符串不同的其他的字符串,生成取得置换字符串的候补的条件,该置换字符串用于置换所述修正对象字符串。修正部使用按照所述条件而从所述知识词典取得的所述置换字符串的候补,进行对所述修正对象字符串的修正。 【附图说明】 图1是对实施方式的知识处理装置的硬件构成例进行表示的框图。 图2是对实施方式的知识处理装置的功能上的构成例进行表示的框图。 图3是对文件数据的一例进行表示的图。 图4是对知识词典的一例进行表示的图。 图5是对确定置换字符串的状况进行示意性地表示的图。 图6是对无法唯一地确定置换字符串的例子进行说明的图。 图7是对无法唯一地确定置换字符串的例子进行说明的图。 图8是对基于“住所”属性的条件生成用字符串而生成为了取得对“姓”属性的修正对象字符串进行置换的置换字符串的候补所用的候补取得条件的例子进行说明的图。 图9是对基于“出生年月日”属性的条件生成用字符串而生成为了取得对“名”属性的修正对象字符串进行置换的置换字符串的候补所用的候补取得条件的例子进行说明的图。 图10是对使用按照候补取得条件而取得的置换字符串的候补而筛选置换字符串的状况进行示意性地表示的图。 图11是对使用按照候补取得条件而取得的置换字符串的候补而筛选置换字符串的状况进行示意性地表示的图。 图12是对将置换字符串的候补提示给用户的情况的提示例进行表示的图。 图13是对将置换字符串的候补提示给用户的情况的提示例进行表示的图。 图14是对实施方式的知识处理装置的处理过程的一例进行表示的流程图。 图15是对优先使用按照优先度高的候补取得条件而取得的置换字符串的候补来进行对修正对象字符串的修正的状况进行示意性地表示的图。 图16是对按照优先度进行置换字符串的筛选的过程的一例进行表示的流程图。 图17是对按照优先度进行置换字符串的筛选的过程的另一例进行表示的流程图。 图18是对将与“姓”属性的修正对象字符串邻接的“名”属性的字符串用于条件生成用字符串来取得置换字符串的候补的例子进行示意性地表示的图。 图19是对姓名的男女差进行说明的图。 图20是对利用姓名的男女差来进行置换字符串的筛选的例子进行说明的图。 【具体实施方式】 以下,参照附图对实施方式的进行详细地说明。在以下所示的实施方式中,设想进行通过OCR而字符识别出的字符串的修正的例子。然而,通过实施方式的知识处理装置修正的字符串不限于通过OCR而字符识别出的字符串。实施方式的知识处理装置能够广泛应用于使用知识词典进行字符串的修正的情况。 图1是对实施方式的知识处理装置的硬件构成例进行表示的框图。如图1所示,实施方式的知识处理装置10能够采用作为通常的计算机的硬件构成。即,知识处理装置10具备:CPU(Central Processing Unit:中央处理单兀)ll、R0M(Read Only Memory:只读存储器)12、RAM (Random Access Memory:随机存取存储器)13、硬盘驱动器、CD (Compact Disc:光盘)驱动器、DVD (Digital Versatile Disc:数字通用光盘)驱动器、闪存存储器等的辅助存储装置14、将它们连接的总线15等。此外,知识处理装置10中,通过有线或无线而连接有液晶显示器等的显示装置16、键盘和/或鼠标等的输入装置17。 图2是对实施方式的知识处理装置10的功能上的构成例进行表示的框图。知识处理装置10例如通过由CPUll利用RAM13作为工作区域并执行储存于R0M12、辅助存储装置14等中的程序,由此如图2所示那样实现输入部101、提示部102、受理部103、选择部104、确定部105、生成部106、修正部107以及输出部108的功能上的构成要素。 输入部101输入文件数据D。文件数据D是包含多个字符串且对各字符串附有其属性的数据。字符串是作为整体而具有意思的字符的集合(单词等)。属性是字符串的意思的类别,例如举出姓名的“姓”属性、姓名的“名”属性、“住所”属性、“出生年月日”属性等。文件数据D除了包含字符串和其属性以外,也可以包含与字符串关联的其他的信息。在本实施方式中,作为文件数据D,使用包含通过OCR而字符识别出的字符串的文件数据。在此情况下,作为文件数据D包含的其他的信息,举出作为对构成字符串的各字符的字符识别的结果而获得的候补字符组等。 图3是对文件数据D的一例进行表示的图。图3所示的文件数据D包括“鈴木”、“太郎”、“1970年6月15日”、“東京都府中市..?”等作为字符串。对字符串“鈴木”附有“姓”作为属性,对字符串“太郎”附有“名”作为属性,对于字符串“ 1970年6月15日”附有“出生年月日”作为属性,对于字符串“東京都府中市..?”附有“住所”作为属性。此夕卜,作为与各字符串关联的其他的信息,包含构成字符串的各字符的候补字符组等。 另外,在本实施方式中,采用输入了按每个字符串预先附有属性的文件数据D的构成,但也可以构成为在知识处理装置10的内部赋予在文件数据D中包含的各字符串的属性。例如,通过在知识处理装置10的内部执行自然语言处理的意思解析,由此能够判定文件数据D包含的各字符串的属性。 提示部102使用显示装置16将各种信息提示给用户。例如,提示部102能够将由输入部101输入的文件数据D显示于显示装置16而提示给用户。在此情况下,用户能够一边参照所提示的文件数据D,一边进行从文件数据D包含的多个字符串之中指定修正对象字符串的操作、指定为了生成后述的候补取得条件而使用的字符串(以下,称为条件生成用字符串。)的操作等。此外,提示部102也可以如后所述那样,使用显示装置16将用于置换修正对象字符串的置换字符串的候补提示给用户。本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201410346227.html" title="知识处理装置以及方法原文来自X技术">知识处理装置以及方法</a>

【技术保护点】
一种知识处理装置,使用知识词典进行字符串的修正,该知识处理装置具备:选择部,从包含多个字符串且按每个字符串附有该字符串的属性的文件数据,选择修正对象字符串;生成部,基于所述文件数据中的、属性与所述修正对象字符串不同的其他的字符串,生成取得置换字符串的候补的条件,该置换字符串用于置换所述修正对象字符串;以及修正部,使用按照所述条件而从所述知识词典取得的所述置换字符串的候补,进行对所述修正对象字符串的修正。

【技术特征摘要】
2013.09.06 JP 2013-1856341.一种知识处理装置,使用知识词典进行字符串的修正,该知识处理装置具备: 选择部,从包含多个字符串且按每个字符串附有该字符串的属性的文件数据,选择修正对象字符串; 生成部,基于所述文件数据中的、属性与所述修正对象字符串不同的其他的字符串,生成取得置换字符串的候补的条件,该置换字符串用于置换所述修正对象字符串;以及 修正部,使用按照所述条件而从所述知识词典取得的所述置换字符串的候补,进行对所述修正对象字符串的修正。2.如权利要求1所述的知识处理装置, 还具备确定部,该确定部与所述条件无关地确定所述置换字符串, 在所述确定部无法确定所述置换字符串的情况下,所述生成部生成所述条件, 在所述确定部能够确定所述置换字符串的情况下,所述修正部用所确定的所述置换字符串置换所述修正对象字符串,在所述确定部无法确定所述置换字符串的情况下,所述修正部使用按照所述条件而取得的所述置换字符串的候补,进行对所述修正对象字符串的修正。3.如权利要求1所述的知识处理装置,还具备: 提示部,将所述置换字符串的候补提示给用户;以及 受理部,受理对所提示的所述置换字符串的候补进行选择的用户操作, 所述修正部用所选择的所述置换字符串的候补来置换所述修正对象字符串。4.如权利要求1所述的知识处理装置,还具备: 提示部,将所述文件数据提示给用户;以及 受理部,受理对所提示的所述文件数据中的任意的字符串进行指定的用户操作, 所述选择部选择由用户操作所指定的字符串作为所述修正对象字符串。5.如权利要求1所述的知识处理装置, 提示部,将所述文件数据提示给用户;以及 受理部,受理对所提示的所述文件数据中的任意的字符串进行指定的用户操作, 所述生成部基于由用户操作所指定的字符串、而且是属性与所述修正对象字符串不同的其他的字符串,生成所述条件。6.如权利要求1所述的知识处理装置, 所述修正对象字符串的属性是表示该字符串是姓名的姓的姓属性且所述其他的字符串的属性是表示该字符串是住所的住所属性的情况下,所述生成部生成取得以所述其他的字符串所示的地域特有的姓作为所述置换字符串的候补的、所述条件。7.如权利要求1所述的知识处理装置, 所述修正对象字符串的属性是表示该字符串...

【专利技术属性】
技术研发人员:吉田笃弘
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1