文档比对方法、装置、存储介质、电子设备制造方法及图纸

技术编号:24708734 阅读:21 留言:0更新日期:2020-07-01 00:04
本公开涉及一种文档比对方法、装置、存储介质、电子设备,所述方法包括:获取第一文档和第二文档中的文字内容;确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。

【技术实现步骤摘要】
文档比对方法、装置、存储介质、电子设备
本公开涉及文档内容处理领域,具体地,涉及一种文档比对方法、装置、存储介质、电子设备。
技术介绍
在日常应用中,文档的比较是一个存在于很多场景的需求,例如对两篇文章进行对比,对两个脚本文件中的代码进行对比等等。通常,文档的比较是为了寻找出不同文档之间的相关性和差异,从而简化后续的处理流程,降低工作量。相关技术中,在确定多个文档内容之间的差异过程中所使用的方法对内存资源还有着较高的需求,同时需要的时间也较长,增加了电力消耗。
技术实现思路
本公开的目的是提供一种文档比对方法、装置、存储介质、电子设备,以解决相关技术问题。为了实现上述目的,本公开实施例的第一方面,提供一种文档比对方法,包括:获取第一文档和第二文档中的文字内容;确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。可选地,所述第一文档中文字属性信息的索引是通过如下方式建立的:将所述第一文档的文字内容按照预设粒度层级进行划分;针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号;针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引。可选地,所述预设粒度层级包括:段落粒度层、行粒度层、子行粒度层;所述针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号,包括:针对按段落粒度层划分文字内容得到的各段落文字块,对各所述段落文字块的文字属性信息依次进行编号;针对按行粒度层划分文字内容得到的各行文字块,对各所述行文字块的文字属性信息依次进行编号;针对按子行粒度层划分文字内容得到的各子行文字块,对各所述子行文字块的文字属性信息依次进行编号。可选地,所述针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引,包括:针对每一子行文字块,将该子行文字块对应的编号、该子行文字块所属的行文字块对应的编号、所述行文字块所属的段落文字块对应的编号、以及所述第一文档中从首字符到该子行文字块的累计字符数组成一个元组作为该子行文字块的索引。可选地,所述根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,包括:根据所述第一共通数据块序列中的每一文字内容在所述第一文档的累计字符数,确定所述第一共通数据块序列中的每一文字内容所属的子行文字块;针对每一所述第一共通数据块序列中的每一文字内容所属的子行文字块,根据该子行文字块的索引确定该子行文字块的文字属性信息,并将该文字属性信息作为该文字内容的文字属性信息,其中,每一子行文字块内的文字内容的文字属性信息相同。第二方面,本公开提供一种文档比对装置,包括:获取模块,用于获取第一文档和第二文档中的文字内容;第一确定模块,用于确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;第二确定模块,用于根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;比较模块,用于对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。可选地,还包括:创建模块,用于建立所述第一文档中文字属性信息的索引;所述创建模块包括:划分子模块,用于将所述第一文档的文字内容按照预设粒度层级进行划分;编号子模块,用于针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号;生成子模块,用于针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引。可选地,所述预设粒度层级包括:段落粒度层、行粒度层、子行粒度层;所述编号子模块,包括:第一编号子单元,用于针对按段落粒度层划分文字内容得到的各段落文字块,对各所述段落文字块的文字属性信息依次进行编号;第二编号子单元,用于针对按行粒度层划分文字内容得到的各行文字块,对各所述行文字块的文字属性信息依次进行编号;第三编号子单元,用于针对按子行粒度层划分文字内容得到的各子行文字块,对各所述子行文字块的文字属性信息依次进行编号。可选地,所述生成子模块用于:针对每一子行文字块,将该子行文字块对应的编号、该子行文字块所属的行文字块对应的编号、所述行文字块所属的段落文字块对应的编号、以及所述第一文档中从首字符到该子行文字块的累计字符数组成一个元组作为该子行文字块的索引。可选地,所述第二确定模块,包括:确定子模块,用于根据所述第一共通数据块序列中的每一文字内容在所述第一文档的累计字符数,确定所述第一共通数据块序列中的每一文字内容所属的子行文字块;执行子模块,用于针对每一所述第一共通数据块序列中的每一文字内容所属的子行文字块,根据该子行文字块的索引确定该子行文字块的文字属性信息,并将该文字属性信息作为该文字内容的文字属性信息,其中,每一子行文字块内的文字内容的文字属性信息相同。第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。第四方面,本公开提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。上述技术方案至少可以包括如下技术效果:在需要对第一文档和第二文档进行比较时,可以从所述第一文档和第二文档中获取对应的文字内容,并通过求取共通数据块,得到第一共通数据块序列和第二共通数据块序列。由于在求取共通数据块时未附带所述第一文档和第二文档的属性信息,因此能够提升文档比对速度,减小内存消耗。此外,还可以根据对应的索引关系确定所述第一共通数据块序列和第二共通数据块序列的属性信息,最终能够通过对比所述第一共通数据块本文档来自技高网...

【技术保护点】
1.一种文档比对方法,其特征在于,包括:/n获取第一文档和第二文档中的文字内容;/n确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;/n根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;/n对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。/n

【技术特征摘要】
1.一种文档比对方法,其特征在于,包括:
获取第一文档和第二文档中的文字内容;
确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;
根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;
对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。


2.根据权利要求1所述的方法,其特征在于,所述第一文档中文字属性信息的索引是通过如下方式建立的:
将所述第一文档的文字内容按照预设粒度层级进行划分;
针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号;
针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引。


3.根据权利要求2所述的方法,其特征在于,所述预设粒度层级包括:段落粒度层、行粒度层、子行粒度层;
所述针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号,包括:
针对按段落粒度层划分文字内容得到的各段落文字块,对各所述段落文字块的文字属性信息依次进行编号;
针对按行粒度层划分文字内容得到的各行文字块,对各所述行文字块的文字属性信息依次进行编号;
针对按子行粒度层划分文字内容得到的各子行文字块,对各所述子行文字块的文字属性信息依次进行编号。


4.根据权利要求3所述的方法,其特征在于,所述针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引,包括:
针对每一子行文字块,将该子行文字块对应的编号、该子行文字块所属的行文字块对应的编号、所述行文字块所属的段落文字块对应的编号、以及所述第一文档中从首字符到该子行文字块的累计字符数组成一个元组作为该子行文字块的索引。


5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,包括:
根据所述第一共通数据块序列中的每一文字内容在所述第一文档的累计字符数,确定所述第一共通数据块序列中的每一文字内容所属的子行...

【专利技术属性】
技术研发人员:韩志刚于广伟宋洋
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1