信息处理设备和信息处理方法技术

技术编号:19884307 阅读:42 留言:0更新日期:2018-12-25 19:58
本发明专利技术公开了信息处理设备和信息处理方法。信息处理设备包括形态分析单元、特征值矢量生成单元和确定度计算单元。所述形态分析单元对字符识别结果执行形态分析。所述特征值矢量生成单元针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量。所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度。所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成。所述确定度计算单元根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。

【技术实现步骤摘要】
信息处理设备和信息处理方法
本专利技术涉及信息处理设备和信息处理方法。
技术介绍
在日本未审查专利申请公开第63-24381中,公开了一种在字符识别之后执行、并使用形态分析以检测并改正被误读字符的后处理方法。通过使用字符识别中所确定的距离来预先针对所有第一候选字符检测误读。使用所检测到的误读来检测在形态分析中还未检测到的被误读字符。在日本未审查专利申请公开第05-89281中,公开了一种方法以便能够以高误读检出率来检测误读,并简化改正误读的操作,从而实现操作所需时间的减少。在该方法中,通过执行包括对从字符识别设备获得的识别结果检测出的未登记单词的误读的改正来获得数据。通过参考字符形状类似且单汉字字符无变形的词典、包括形状彼此类似的字符的词典、低频相邻的片假名字符、和用于括号的字符形状类似的字符数据等,误读检测单元使用所获得的数据以高准确度地检测可能被误读或可能包括误读的分段。在日本未检查专利申请公开第09-134410中,公开了一种方法以便以高准确度地评估有多大可能识别结果字符是正确的。在该方法中,语言处理确定度计算单元使用从语言处理单元获得的信息以从语言处理确定度表检索确定度。当检索到的确定度为高时,将检索到的确定度输出为针对识别结果字符的确定度。当检索到的确定度为低时,针对处理器的确定度计算单元使用从处理器提供的参数以获得针对处理器的确定度。通过控制各确定度的权重来合并这些确定度和通过语言处理获得的确定度,并确定最终确定度。将最终确定度输出为针对识别结果字符的确定度。在Takukudo、KaoruYamamoto和YujiMatsumoto所写的“ApplyingConditionalRandomFieldstoJapaneseMorphologicalAnalysis”(Proc.OfEMNLP,第230-237页,2004)(以下称为非专利文献1)中,公开了基于条件随机场(CRF)的日文形态分析。在HidekiShimomura、MitaroNamiki、MasakiNakagawa和NobumasaTahahashi所写的“Saisho-kosutopasu-tansaku-moderu–no–ketaisokaiseki–nimotozuku–nihonbun–ayamari–kenshutsu–no–ichi-hoshiki(基于使用最小成本路径搜索的形态分析的用于在日语句子中检测错误的方法)”(Trans.IPSJapan,第33卷,第4期,1992年4月)(以下称为非专利文献2)中,公开了成本比较方法,其中利用了当分析包括错误的句子时分析结果的成本较大的事实,并且其中通过将分析结果中各单词的成本与阈值进行比较来检测错误。在MasahiroIshiba、TetsuoTakeyaman、TsuneoAoki、YasuakiHyodo和TakashiIkeda所写的“Hinshi-N–gram–tokeijoho–wo–mochiita–nihongo–bunsho–niokeru–ayamari–kenshutsuho-nitsuite(对日文文本中的词性使用N-gram统计数据的错误检测方法)”(IPSJSIGNotes(OnseiGengoJyohoShori),19-15,第95-100页,1997年12月12日)(以下称为非专利文献3)中,公开了一种方法以检测在日文文献中的拼写错误之中的假名到汉字的转换中的选择错误、印刷错误、缺失字母和多余字母。在该方法中,将通过正确句子的形态分析而获得的词性n-gram统计信息和启发式规则用于检测日文文献中的拼写错误。
技术实现思路
本专利技术的目的是提供一种通过使用包括词性可能性信息和字符相似度信息两者的特征值矢量来针对字符识别结果中的各字符计算确定度的信息处理设备和方法。本专利技术的主旨构思如下。根据本专利技术的第一方面,提供了一种信息处理设备,该信息处理设备包括形态分析单元、特征值矢量生成单元和确定度计算单元。所述形态分析单元对字符识别结果执行形态分析。所述特征值矢量生成单元针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量。所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度。所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成。所述确定度计算单元根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。根据本专利技术的第二方面,在根据第一方面所述的信息处理设备中,以以下方式来设置所述词性可能性:将包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的词性可能性设置为1,并且将其他词性可能性设置为0。根据本专利技术的第三方面,在根据第一或第二方面的信息处理设备中,针对单字符的字符识别结果中具有较高字符相似度的前N个字符的字符相似度中的每一个,所述特征值矢量生成单元使用通过使用所述前N个字符的字符相似度来对所述形态分析单元将要对其执行形态分析的字符识别结果中的字符相似度进行标准化而获得的字符相似度作为所述字符相似度。根据本专利技术的第四方面,根据所述第一至第三方面中任一方面所述的信息处理设备还包括判定单元,其通过将所述确定度与预定阈值进行比较来判定所述字符识别结果是正确还是错误。根据本专利技术的第五方面,根据所述第一至第三方面中任一方面所述的信息处理设备还包括分配单元和显示器。所述分配单元将所述确定度分配给所述字符识别结果。所述显示器以根据所述确定度是高还是低来强调所述字符识别结果的方式来显示由所述分配单元分配了所述确定度的所述字符识别结果。根据本专利技术的第六方面,根据所述第四方面的信息处理设备还包括删除单元,其从所述字符识别结果中删除由所述判定单元判定为错误的字符。根据本专利技术的第七方面,根据所述第四方面的信息处理设备还包括替换单元,其用其他字符来替换由所述判定单元判定为错误的字符。根据本专利技术的第八方面,根据所述第四方面的信息处理设备还包括搜索单元,其使用其中用通配符替换由所述判定单元判定为错误的字符的搜索关键字来执行搜索。根据本专利技术的第九方面,提供了一种信息处理方法,其包括以下步骤:对字符识别结果执行形态分析的步骤;针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量的步骤,所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度,所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析的结果的单词的词性的概率而被生成;以及根据由所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度的步骤。根据第一方面的信息处理设备能够通过使用包括词性可能性信息和字符相似度信息两者的特征值矢量来计算针对字符识别结果中的各字符的确定度。根据第二方面的信息处理设备能够生成如下的特征值矢量,在该特征值矢量中,将针对包括目标字符的单词的词性的词性可能性设置为1,并且将其他词性的词性可能性设置为0。根据第三方面的信息处理设备能够使用标准化的字符相似度来生成特征值矢量。根据第四方面的信息处理设备能够通过使用确定度来判定字符识别结果是正确还是错误。根据第五方面的信息处理设备能够根据确本文档来自技高网
...

【技术保护点】
1.一种信息处理设备,包括:形态分析单元,其对字符识别结果中的文本串执行形态分析;特征值矢量生成单元,其针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量,所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度,所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成;和确定度计算单元,其根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。

【技术特征摘要】
2012.12.18 JP 2012-2760181.一种信息处理设备,包括:形态分析单元,其对字符识别结果中的文本串执行形态分析;特征值矢量生成单元,其针对所述字符识别结果中的各字符生成具有数量为P+1的元素的特征值矢量,所述特征值矢量包括词性可能性和针对所述字符识别结果中的字符的字符相似度,所述词性可能性对应于P种词性,并且基于包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的概率而被生成;和确定度计算单元,其根据由所述特征值矢量生成单元所生成的特征值矢量来计算针对所述字符识别结果中的各字符的确定度。2.根据权利要求1所述的信息处理设备,其中以以下方式来设置所述词性可能性:将包括所述字符并且作为所述形态分析单元所执行的形态分析的结果的单词的词性的词性可能性设置为1,并且将其他词性可能性设置为0。3.根据权利要求1所述的信息处理设备,其中,针对单字符的字符识别结果中具有较高字符相似度的前N个字符的字符相似度中的每一个,所述特征值矢量生成单元使用通过使用所述前N个字符的字符相似度来对所述形态分析单元将要对其执行形态分析的字符识别结果中的字符相似度进行标准化而获得的标准化后的字符相似度作为生成的所述特征值矢量所包括的字符相似度。4.根据权利要求2所述的信息处理设备,其中,针对单字符的字符识别结果中具有较高字符相似度的前N个字符的字符相似度中的每一个,所述特征值矢量生成单元使用通过使用所述前...

【专利技术属性】
技术研发人员:田中瑛一
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1