一种文书内容比对性能提升方法及系统技术方案

技术编号:36575828 阅读:36 留言:0更新日期:2023-02-04 17:34
本发明专利技术公开了一种文书内容比对性能提升方法及系统,所述方法包括:根据待比对文档的目录结构将文档分为若干内容块;根据预设分词规则对内容块中的句子进行过滤分词,生成分词结果;以每一句子为子节点,根据预设算法生成每一内容块的关键词数据集;以每一内容块为父节点,基于内容块的关键词数据集生成待比对文档的全局语义特征向量;基于全局语义特征向量构建用于表征待比对文档与匹配文档之间文本交互关系的相似度矩阵;将相似度矩阵输入至预设网络模型,以使预设网络对相似度矩阵进行特征聚合,输出待比对文档与匹配文档的相似度比对结果。本发明专利技术可用于提高文本内容比对的准确性和便捷性。性和便捷性。性和便捷性。

【技术实现步骤摘要】
一种文书内容比对性能提升方法及系统


[0001]本专利技术涉及信息处理
,特别是涉及一种文书内容比对性能提升方法及系统。

技术介绍

[0002]随着互联网的发展和信息时代的到来,互联网已经成为人们沟通、交流的重要平台。互联网每天都会产生大量的信息资源,而据相关统计数据表明,互联网上近似重复的网页的数量占网页总数量的比例高达29%,在一个大型信息采集系统中,采集到的网页信息内容有大多数是完全重复或近似重复的,文本内容相似度计算技术在搜索引擎、自动问答、文档分类、新闻推送等常见应用场景中是必不可少的关键技术。
[0003]在对文书篇幅较长甚至达到几百页的长文本内容进行对比时,在对文本内容进行比对时,需要将大量文本信息进行提取压缩与匹配计算,基于全文字符组成的字符串进行逐字比对,但该方式的计算压力会随着字符串长度的增加呈指数增长,无法应对文书篇幅较长甚至达到几百页的长文本内容比对。为了减少长文本内容对比的计算量,现有技术大多采用基于关键词提取的方法和引入深度学习模型的方法。基于关键词提取的方法通过提取少量关键词或标题作为长文本的代表进行相似度计算,该方法虽然可以减少长文本内容对比的计算量,但是计算结果依赖于少数几个关键词,损失了大量的语义信息,鲁棒性较差。基于深度学习模型的方法使用深度学习模型对全文进行编码后计算其相似度。但现有的深度学习模型限制了文本的输入长度,只能在长度为数百个词以内的文本序列上取得较好的编码效果。而类似书本这样的长文本经常有数万字甚至数十万字,在采用深度学习模型时由于存在输入长度限制,需要对文本进行分割,而以长度作为文本的划分依据,该突兀的文本分割方式会引入大量的数据偏见,不利于相似度判别结果。

技术实现思路

[0004]本申请提供了一种文书内容比对性能提升方法及系统,用于提高文本内容比对的准确性和便捷性。
[0005]第一方面,本申请提供了一种文书内容比对性能提升方法,包括:根据待比对文档的目录结构将所述待比对文档分为若干内容块;根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集;以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵;将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进
行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果。
[0006]这样,根据待比对文档的目录结构分为若干内容块,避免单纯以长度进行文本划分带来的数据偏见。进一步的,根据预设分词规则对内容块下的每一句子进行过滤分词,在保留关键特征的情况下降低文档中的无关词语占比,减少待比对文档中的冗余数据,缓解长文本内容对比的计算量。由于各个内容块间互不干扰,可通过多个线程同时对内容块进行数据处理,提升数据处理速度。将每一内容块作为父节点,内容块下的每一句子作为子节点,形成待比对文档的树状结构图,依次生成各个内容块的关键词数据集和待比对文档的全局语义特征向量,保留文本间的语义信息,增加鲁棒性。基于待比对文档的全局语义特征向量构建与匹配文档的相似度矩阵后再将该相似度矩阵输入至预设的网络模型,可以有效利用网络模型的深度学习和特征聚合能力,提高近似度比对结果的准确性。且,由于预先对待比对文档和匹配文档的文本交互关系进行处理,网络模型不需要对全部的文本数据进行比编码,减少了模型的数据处理压力,可以提升近似度比对的处理速度。
[0007]在一种实现方式中,所述根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果,具体包括:对每一所述内容块的文本内容进行词性标注;基于预设分词规则过滤所述内容块中的停用词,保留所述内容块中预设词性的分词;将所述预设词性的分词输入至预设词嵌入模型,以使所述词嵌入模型输出词向量形式的第一分词序列。
[0008]在一种实现方式中,所述以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集,具体包括:计算同一个内容块中每两个句子之间的余弦相似度,建立句子之间的余弦相似度矩阵;根据预设公式计算每一句子在对应内容块中的权重排名,生成每一所述内容块中句子的权重排名列表;选取预设排名范围内的句子,生成内容块的关键词数据集。
[0009]在一种实现方式中,所述以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量,具体包括:根据所述待比对文档的目录结构整合每一所述内容块的关键词数据集,生成所述待比对文档的文本摘要数据;对所述待比对文档的文本摘要数据进行序列化操作,生成序列化文本向量;将所述序列化文本向量输入至BiLSTM模型,以使所述BiLSTM模型输出具备上下文信息的全局语义特征向量。
[0010]在一种实现方式中,所述基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵,具体包括:根据所述预设分词规则对所述匹配文档进行过滤分词,输出词向量形式的第二分词序列;根据预设注意力机制对所述第二分词序列中的每一分词添加权重向量,生成所述匹配文档的特征向量;
根据预设相似度计算公式计算所述全局语义特征向量中每一词向量与所述特征向量中每一词向量的相似度数据;以所述全局语义特征向量和所述匹配文档的特征向量分别作为横轴和纵轴,以所述相似度数据作为所述相似度矩阵的值构建所述相似度矩阵。
[0011]在一种实现方式中,所述将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果,具体包括:基于预设卷积网络对所述相似度矩阵进行卷积处理,生成所述相似度矩阵对应的初始特征矩阵;基于预设维度的池化网络对所述初始特征矩阵进行池化处理,生成固定大小的特征矩阵;基于预设多层感知机网络对所述固定大小的特征矩阵进行转化,输出所述待比对文档与所述匹配文档的相似度比对结果。
[0012]在一种实现方式中,在所述选取预设排名范围内的句子后,还包括:选取预设排名范围内的句子并将句子中的每一词向量输入至LDA模型进行主题聚合训练;其中,所述LDA模型根据所述待比对文档对应的主题,在所述主题下获取与所述词向量相同数量的词,并对每一词的概率值进行归一化计算,生成每一所述词的权重信息;将所述词向量与所述权重信息进行加权求和,生成所述内容块的关键数据集。
[0013]第二方面,本申请还提供一种文书内容比对性能提升系统,包括内容划分模块、句子分词模块、第一算法模块、第二算法模块、矩阵生成模块和相似比对模块,具体为:所述内容划分模块用于根据待比对文档的目录结构将所述待比对文档分为若干内容块;所述句子分词模块用于根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;所述第一算法模块用于以每一句子为子节点,根据预设算法生成每一所述内容块的关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文书内容比对性能提升方法,其特征在于,包括:根据待比对文档的目录结构将所述待比对文档分为若干内容块;根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集;以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵;将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果。2.如权利要求1所述的一种文书内容比对性能提升方法,其特征在于,所述根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果,具体包括:对每一所述内容块的文本内容进行词性标注;基于预设分词规则过滤所述内容块中的停用词,保留所述内容块中预设词性的分词;将所述预设词性的分词输入至预设词嵌入模型,以使所述词嵌入模型输出词向量形式的第一分词序列。3.如权利要求1所述的一种文书内容比对性能提升方法,其特征在于,所述以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集,具体包括:计算同一个内容块中每两个句子之间的余弦相似度,建立句子之间的余弦相似度矩阵;根据预设公式计算每一句子在对应内容块中的权重排名,生成每一所述内容块中句子的权重排名列表;选取预设排名范围内的句子,生成内容块的关键词数据集。4.如权利要求1所述的一种文书内容比对性能提升方法,其特征在于,所述以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量,具体包括:根据所述待比对文档的目录结构整合每一所述内容块的关键词数据集,生成所述待比对文档的文本摘要数据;对所述待比对文档的文本摘要数据进行序列化操作,生成序列化文本向量;将所述序列化文本向量输入至BiLSTM模型,以使所述BiLSTM模型输出具备上下文信息的全局语义特征向量。5.如权利要求1所述的一种文书内容比对性能提升方法,其特征在于,所述基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵,具体包括:根据所述预设分词规则对所述匹配文档进行过滤分词,输出词向量形式的第二分词序列;根据预设注意力机制对所述第二分词序列中的每一分词添加权重向量,生成所述匹配
文档的特征向量;根据预设相似度计算公式计算所述全局语义特征向量中每一词向量与所述特征向量中每一词向量的相似度数据;以所述全局语义特...

【专利技术属性】
技术研发人员:蓝建敏李思伟申鑫池沐霖
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1