System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 针对高并发场景的语义级匹配文本查重方法技术_技高网

针对高并发场景的语义级匹配文本查重方法技术

技术编号:44676238 阅读:0 留言:0更新日期:2025-03-19 20:29
本发明专利技术属于自然语言处理技术领域,为了解决现有技术在文本查重方面的准确性和查重效率较低的技术问题,本发明专利技术提出一种“针对高并发场景的语义级匹配文本查重方法”,包括步骤1、候选文本入库;步骤2、查询文本划分为查询语句,并将查询语句组合为批次查询数据;步骤3、对批次查询数据进行并行处理的多字段加权查询;步骤4、计算查询语句和匹配语句的重复字符数目;步骤5、查重结果保存,通过将查询文本组合为批次查询数据,结合并行处理的多字段加权查询和分布式锁,提高在高并发场景下的查重效率。

【技术实现步骤摘要】

本专利技术属于自然语言处理。


技术介绍

1、文本查重旨在检测两个或多个文本间的相似度,识别其中重复或近似部分。现有的文本查重方法包括关键词匹配法和全文索引法,其中,关键词匹配法通过统计文本中的词频或使用n-gram模型,将文本切分为连续的词组或字符序列,再比较片段的重合程度实现相似度的计算;全文索引法如elasticsearch,是一个基于lucene构建的分布式、实时搜索及分析引擎,能够快速地存储、搜索和分析大量的数据,并且支持多种数据类型和复杂的查询语法,通过建立倒排索引,将每个词映射到包含该词的文档列表,从而实现快速搜索和比对,因此elasticsearch被广泛应用于各种场景下的文本查重。

2、但是,大多数对查重结果计算重复率的方法只考虑完全重复或包含重复内容,难以准确识别文本间的细微差异和相似度。而且,在大量文本内容查重或高并发场景的情况下,现有文本查重方法的查重效率也较低。


技术实现思路

1、为了解决现有技术在文本查重方面的准确性和查重效率较低的技术问题,本专利技术提出一种“针对高并发场景的语义级匹配文本查重方法”。

2、针对高并发场景的语义级匹配文本查重方法,如图1所示,包括以下步骤:

3、步骤1、候选文本入库:将候选文本拆分为语句后存入数据库,并记录语句和对应的原始候选文本;

4、步骤2、查询文本划分为查询语句,并将查询语句组合为批次查询数据;

5、步骤3、对批次查询数据在数据库中实现同时并行处理的多字段加权查询,所述多字段加权查询包括分词处理和分词结果匹配处理,所述分词处理能够对批次查询数据划分为单个词汇,所述分词结果匹配处理能够实现语义级匹配,匹配单个相同词汇和其近义词,从而得到针对查询语句的匹配语句;

6、步骤4、计算查询语句和步骤3匹配语句的重复字符数目:首先对匹配语句进行停用词过滤处理;合并去除停用词的匹配语句,同时统计合并后的文本字符数量作为中间结果,如果字符长度超过设定阈值,则将合并后的文本字符数量作为有效计数;计算重复字符数目:

7、1、完全匹配:若查询语句与匹配语句相同、且匹配语句字符长度超过设定阈值时,将匹配语句包含的字符数作为重复字符数;

8、2、部分匹配:若匹配语句中包含查询语句、且查询语句字符长度超过设定阈值时,将查询语句包含的字符数作为重复字符数;

9、3、片段匹配:针对完全匹配和部分匹配之外的情况,采用查询语句与合并标识符的匹配语句比较的方式,遍历所有标识符之间的字符内容,如果字符长度超过设定阈值,则累加字符长度,将累加结果作为重复字符数,其中,若字符内容中包含近义词匹配结果,按照近义词对应的原始词汇长度计算字符长度;

10、步骤5、查重结果保存,使用redisson分布式工具包中的分布式锁实现分布式查重结果保存。

11、本专利技术与现有技术相比:

12、通过将查询文本组合为批次查询数据,结合并行处理的多字段加权查询和分布式锁,提高在高并发场景下的查重效率;通过对匹配语句进行后处理,去除其中的停用词并合并有效匹配语句,在此基础上,通过完全匹配、部分匹配和片段匹配并累加的多种方式计算重复字符数目,实现语义级匹配,提高了重复字符统计的准确性,可以准确识别文本间的细微差异和相似度。

本文档来自技高网...

【技术保护点】

1.针对高并发场景的语义级匹配文本查重方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤1中,通过正则表达式将候选文本拆分为候选语句。

3.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤2中,通过正则表达式将查询文本划分为查询语句,构建的正则表达式包含中文标点符号。

4.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤3中,多字段加权查询通过Elasticsearch中的MultiMatchQuery查询类型实现,最小匹配度设置为75%;同时并行处理通过Java中的CompletableFuture类实现。

5.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤4中,合并去除停用词的匹配语句,首先通过正则匹配标识符号,得到去除停用词的匹配语句中所有匹配标识符的位置,检查相邻位置中是否有字符内容,如果有字符内容则保留其中的字符内容,得到合并标识符的匹配语句。

【技术特征摘要】

1.针对高并发场景的语义级匹配文本查重方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤1中,通过正则表达式将候选文本拆分为候选语句。

3.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤2中,通过正则表达式将查询文本划分为查询语句,构建的正则表达式包含中文标点符号。

4.根据权利要求1所述的针对高并发场景的语义级匹配文本查重方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:王振鑫贺亮宋进张俊鹏杨浩李昕昱岳驰涛康诗奇林禹全
申请(专利权)人:吉林省吉林祥云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1