【技术实现步骤摘要】
本专利技术涉及。
技术介绍
日本特许第3578618号公报(专利文献I)公开了一种文档分割装置,该文档分割装置通过不仅考虑相邻文档的关系而且考虑与该文档相关联的广域的关系来实现有效分割文档的目标,并且该文档分割装置设置有:语言要素分出单元,该语言要素分出单元用于以段落、句子以及行为单位从电子文档中分出语言要素;语言要素间关联度评估单元,该语言要素间关联度评估单元用于评估任何两个语言要素(例如,具有公共字符或者单词)的关联度;语言要素间关联度矩阵取得单元,该语言间要素关联矩阵取得单元通过利用这种语言要素间关联度评估单元来取得全部语言要素的关联度;以及矩阵拆分单元,该矩阵拆分单元用于将这种语言要素间关联度矩阵取得单元提供的语言要素间关联度矩阵分割为具有高关联度的部分矩阵的排列。由此,可以与通过部分矩阵进行的拆分相应地来拆分文档。日本特许第3767180号公报(专利文献2)公开了一种用于分析文档结构的方法和装置、以及存储文档结构分析程序的存储介质,其目标在于即使当不包括项目标记或者未写有特定标记等时也可以通过使用每个字符串的长度或者行首的位置信息来分析标记项目和文本中的简单句的文档结构,其中,输入待分析的文档,检查在所述文档的行首上是否存在引用符,当存在引用符时,删除该引用符,检测特定项目标记所要使用的包括文档中的日期、场所、期限的字符串,并且基于检测到的项目标记的特征来检测任意项目标记,将检测到所述项目标记的行的行首位置和未检测到项目标记的后续行的行首位置指定为项目范围,后续行与被判断为项目范围以外的行相连接,以句子为单位分割各行,将特定项目、任意项目以及指 ...
【技术保护点】
一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐;第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。
【技术特征摘要】
2011.12.09 JP 2011-2700731.一种信息处理装置,该信息处理装置包括: 取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的息; 判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐; 第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域; 分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进; 第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及 输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。2.根据权利要求1所述的信息处理装置,其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括所述行信息所指示的行的区域是否左对齐。3.根据权利要求1或者2所述的信息处理装置,其中,所述判断单元基于所述取得单元取得的行信息,计算该行信息所指示的行的中点坐标,并且基于所述区域内的行的行首坐标、中点坐标以及行尾坐标中的一个以上坐标来判断所述区域是否左对齐。4.根据权利要求1至3中任一项所述的信息处理装置,其中,所述第一分割单元基于位于行首或者行尾中的一个以上字符的字符串是否满足预定字符串条件,将所述区域分割为段落区域或者项目区域。5.根据权利要求1至4中任一项所述的信息处理装置,其中,所述第一分割单元基于由所述区域内的行的字符数量所预定的值是否满足预定条件,将所述区域分割为段落区域或者项目区域。6.根据权利要求1至5中任一项所述的信息处理装置,其中,所述分析单元通过基于从区域的左端到该区域内各行的左端的距离,将所述各行分类为缩进行和未缩进行,来分析行的缩进。7.根据权利要求6所述的信息处理装置,其中,所述第二分割单元基于行内所含的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。8.一种信息处理装置,该信息处理装置包括: 取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的息; 判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否上对齐; 第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域; 分析单元,该分析单元分析所述判断单元判断为上对齐的区域内的行的缩进; 第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为上对齐的区域分割为段落区域或者项目区域;以及 输出单元,该输出单元针对所述判断单元判断为未上对齐的区域,输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。