信息处理装置和信息处理方法制造方法及图纸

技术编号:8959404 阅读:135 留言:0更新日期:2013-07-25 18:58
本发明专利技术涉及信息处理装置和信息处理方法。一种信息处理装置包括:取得单元,其取得区域信息、行信息、以及字符信息;判断单元,其判断区域是否左对齐;第一分割单元,其将包括字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,其分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,其将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及输出单元,其针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
日本特许第3578618号公报(专利文献I)公开了一种文档分割装置,该文档分割装置通过不仅考虑相邻文档的关系而且考虑与该文档相关联的广域的关系来实现有效分割文档的目标,并且该文档分割装置设置有:语言要素分出单元,该语言要素分出单元用于以段落、句子以及行为单位从电子文档中分出语言要素;语言要素间关联度评估单元,该语言要素间关联度评估单元用于评估任何两个语言要素(例如,具有公共字符或者单词)的关联度;语言要素间关联度矩阵取得单元,该语言间要素关联矩阵取得单元通过利用这种语言要素间关联度评估单元来取得全部语言要素的关联度;以及矩阵拆分单元,该矩阵拆分单元用于将这种语言要素间关联度矩阵取得单元提供的语言要素间关联度矩阵分割为具有高关联度的部分矩阵的排列。由此,可以与通过部分矩阵进行的拆分相应地来拆分文档。日本特许第3767180号公报(专利文献2)公开了一种用于分析文档结构的方法和装置、以及存储文档结构分析程序的存储介质,其目标在于即使当不包括项目标记或者未写有特定标记等时也可以通过使用每个字符串的长度或者行首的位置信息来分析标记项目和文本中的简单句的文档结构,其中,输入待分析的文档,检查在所述文档的行首上是否存在引用符,当存在引用符时,删除该引用符,检测特定项目标记所要使用的包括文档中的日期、场所、期限的字符串,并且基于检测到的项目标记的特征来检测任意项目标记,将检测到所述项目标记的行的行首位置和未检测到项目标记的后续行的行首位置指定为项目范围,后续行与被判断为项目范围以外的行相连接,以句子为单位分割各行,将特定项目、任意项目以及指示句子的标签附加至文档并输出。
技术实现思路
本专利技术的目的在于提供一种信息处理装置,该信息处理装置在将文档中的区域分割为段落区域或者项目区域的情况下,在指示项目的字符与预定的字符不同时可以抑制错误分割。根据本专利技术的第一方面,提供了一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与区域中的行有关的信息,以及字符信息是与行中的字符有关的信息;判断单元,该判断单元基于所述取得单元取得的行信息来判断包括该行信息所指示的行的区域是否左对齐;第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果将所述判断单元判断为左对齐的所述区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单兀的分iiij结果。根据本专利技术的第二方面,在根据第一方面的信息处理装置中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元可基于与行信息所指示的行的下一行中的字符有关的字符信息来改变该行信息,随后可以判断包括该行信息指示的所述行的区域是否左对齐。根据本专利技术的第三方面,在根据第一或者第二方面的信息处理装置中,所述判断单元可基于所述取得单元所取得的行信息,来计算所述行信息所指示的行的中点坐标,并且可以基于以下坐标中的一个或者更多个坐标来判断所述区域是否左对齐:所述区域中的所述行的行首坐标、所述中点坐标以及行尾坐标。根据本专利技术的第四方面,在根据第一方面至第三方面中的任一方面的信息处理装置中,所述第一分割单元可基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。根据本专利技术的第五方面,在根据第一方面至第四方面中的任一方面的信息处理装置中,所述第一分割单元可以基于由所述区域中的行的字符数量所预定的值是否满足预定条件,来将所述区域分割为段落区域或者项目区域。根据本专利技术的第六方面,在根据第一方面至第五方面的任一方面的信息处理装置中,所述分析单元可以通过基于从区域左端至该区域中各行的左端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。根据本专利技术的第七方面,在根据第六方面的信息处理装置中,第二分割单元可以基于行中包括的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。根据本专利技术的第八方面,提供了 一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息和字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与所述区域中的行有关的信息,该字符信息是与所述行中的字符有关的信息;判断单元,该判断单元基于所述取得单元所取得的行信息来判断包括所述行信息所指示的行的区域是否上对齐;第一分割单元,该第一分割单元基于所述取得单元所取得的字符信息,将包括所述字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为上对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果将所述判断单元判断为上对齐的所述区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未上对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为上对齐的区域,输出所述第二分割单元的分割结果。根据本专利技术的第九方面,在根据第八方面的信息处理装置中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元可以基于与行信息指示的行的下一行中的字符有关的字符信息来改变该行信息,随后可以判断包括该行信息指示的所述行的区域是否上对齐。根据本专利技术的第十方面,在根据第八方面或者第九方面的信息处理装置中,所述判断单元可以基于所述取得单元所取得的行信息,来计算所述行信息所指示的行的中点坐标,并且可以基于以下坐标中的一个或者更多个坐标来判断所述区域是否上对齐:所述区域中的所述行的行首坐标、所述中点坐标以及行尾坐标。根据本专利技术的第十一方面,在根据第八方面至第十方面中的任一方面的信息处理装置中,所述第一分割单元可以基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。根据本专利技术的第十二方面,在根据第八方面至第十一方面中的任一方面的信息处理装置中,所述第一分割单元可基于由所述区域中的行的字符数所预定的值是否满足预定条件,来将所述区域分割为段落区域或者项目区域。根据本专利技术的第十三方面,在根据第八方面至第十二方面的任一方面的信息处理装置中,所述分析单元可以通过基于从区域上端至该区域中各行的上端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。根据本专利技术的第十四方面,在根据第十三方面的信息处理装置中,第二分割单元可基于行中包括的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。根据本专利技术的第十五方面,提供了一种信息处理方法,该信息处理方法包括:取得步骤,取得区域信息、行信息和字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与所述区域中的行有关的信息,该字符本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201210380729.html" title="信息处理装置和信息处理方法原文来自X技术">信息处理装置和信息处理方法</a>

【技术保护点】
一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐;第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。

【技术特征摘要】
2011.12.09 JP 2011-2700731.一种信息处理装置,该信息处理装置包括: 取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的息; 判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐; 第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域; 分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进; 第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及 输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。2.根据权利要求1所述的信息处理装置,其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括所述行信息所指示的行的区域是否左对齐。3.根据权利要求1或者2所述的信息处理装置,其中,所述判断单元基于所述取得单元取得的行信息,计算该行信息所指示的行的中点坐标,并且基于所述区域内的行的行首坐标、中点坐标以及行尾坐标中的一个以上坐标来判断所述区域是否左对齐。4.根据权利要求1至3中任一项所述的信息处理装置,其中,所述第一分割单元基于位于行首或者行尾中的一个以上字符的字符串是否满足预定字符串条件,将所述区域分割为段落区域或者项目区域。5.根据权利要求1至4中任一项所述的信息处理装置,其中,所述第一分割单元基于由所述区域内的行的字符数量所预定的值是否满足预定条件,将所述区域分割为段落区域或者项目区域。6.根据权利要求1至5中任一项所述的信息处理装置,其中,所述分析单元通过基于从区域的左端到该区域内各行的左端的距离,将所述各行分类为缩进行和未缩进行,来分析行的缩进。7.根据权利要求6所述的信息处理装置,其中,所述第二分割单元基于行内所含的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。8.一种信息处理装置,该信息处理装置包括: 取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的息; 判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否上对齐; 第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域; 分析单元,该分析单元分析所述判断单元判断为上对齐的区域内的行的缩进; 第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为上对齐的区域分割为段落区域或者项目区域;以及 输出单元,该输出单元针对所述判断单元判断为未上对齐的区域,输...

【专利技术属性】
技术研发人员:今野裕也
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1