System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本去重方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种文本去重方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41476121 阅读:13 留言:0更新日期:2024-05-30 14:27
本发明专利技术公开了一种文本去重方法、装置、电子设备及存储介质,方法包括:对原始文本进行文本切分,得到至少一个子文本,基于预设文本属性从至少一个子文本中确定目标子文本,目标子文本的文本属性和预设文本属性的关联度满足关联条件,将目标子文本进行拼接重组,得到目标文本,若目标文本和待比较文本的相似度满足相似条件,删除原始文本,待比较文本为预设文本属性对应的文本。本申请实施例通过对原始文本进行无效信息的去除,以减少无效信息在后续目标文本去重中的影响,并经过和待比较文本的相似度的比较,可以有效地进行文本的去重,提高去除无效信息后的文本的去重率。

【技术实现步骤摘要】

本专利技术涉及计算机,特别涉及一种文本去重方法、装置、电子设备及存储介质


技术介绍

1、随着互联网技术发展,各种信息在互联网上的传播越来越方便。然而,在大量信息因互联网得到传播的同时,越来越多的重复信息也不断在互联网上出现,影响用户获取信息的效率。

2、比如,同一份文本内容经常被互联网上多个平台多个公众号通过修改部分内容后,再进行转载,导致我们获取到的有效信息存在大量重复的问题。


技术实现思路

1、为了解决现有技术的问题,本专利技术实施例提供了一种文本去重方法、装置、电子设备及存储介质。技术方案如下:

2、一方面,提供了一种文本去重方法,方法包括:

3、对原始文本进行文本切分,得到至少一个子文本;

4、基于预设文本属性从至少一个子文本中确定目标子文本;目标子文本的文本属性和预设文本属性的关联度满足关联条件;

5、将目标子文本进行拼接重组,得到目标文本;

6、若目标文本和待比较文本的相似度满足相似条件,删除原始文本;待比较文本为预设文本属性对应的文本。

7、另一方面,提供了一种文本去重装置,装置包括:

8、文本切分模块,用于对原始文本进行文本切分,得到至少一个子文本;

9、文本确定模块,用于基于预设文本属性从至少一个子文本中确定目标子文本;目标子文本的文本属性和预设文本属性的关联度满足关联条件;

10、文本拼接模块,用于将目标子文本进行拼接重组,得到目标文本;p>

11、文本处理模块,用于若目标文本和待比较文本的相似度满足相似条件,删除原始文本;待比较文本为预设文本属性对应的文本。

12、在一些可能的实施例中,文本确定模块,用于:

13、对至少一个子文本中的每个子文本中的每个字符进行字符特征处理,得到每个子文本中的每个字符的字符特征信息;

14、基于每个子文本中的每个字符的字符特征信息确定每个子文本的文本特征信息;

15、基于每个子文本的文本特征信息确定每个子文本的文本属性数据;文本属性数据为预设文本属性对应的数据;

16、基于每个子文本的文本属性数据和预设属性数据从至少一个子文本中确定目标子文本。

17、在一些可能的实施例中,当目标子文本的数量为k,且k为大于等于二的整数时,文本拼接模块,用于:

18、按照目标子文本在原始文本中的位置进行拼接重组,得到数量为一的目标文本;

19、或者;

20、基于全排列规则对目标子文本进行拼接重组,得到数量与k相关的多个目标文本。

21、在一些可能的实施例中,装置还包括指纹向量确定模块,用于:

22、对目标文本进行分词处理,得到目标文本对应的词向量序列;

23、基于预设文本属性确定词向量序列中的每个词向量的权重信息;

24、基于词向量序列和每个词向量的权重信息确定目标文本的文本向量;

25、对文本向量进行降维处理,得到目标文本的指纹向量。

26、在一些可能的实施例中,文本处理模块,用于:

27、获取待比较文本的指纹向量;待比较文本为预设文本属性对应的文本库中的文本;

28、基于目标文本的指纹向量和待比较文本的指纹向量确定目标文本和待比较文本之间的距离数据;

29、若距离数据小于等于距离阈值,确定目标文本为重复文本,并删除原始文本。

30、在一些可能的实施例中,装置还包括原始文本确定模型,用于:

31、获取待处理文件;

32、对待处理文件中的内容进行字符获取处理,得到原始文本;

33、待处理文件中的内容包括文本、表格、图片中的至少一个。

34、在一些可能的实施例中,文本确定模块,用于基于预设文本属性和文本判别模型从至少一个子文本中确定目标子文本;文本判别模型由文本训练集训练得到;

35、装置还包括训练集确定模块,用于:

36、获取多个正文本和多个负文本;正文本和预设文本属性相关;负文本和预设文本属性无关;

37、利用替换词对正文本中的词进行替换,得到第一文本;

38、基于多个正文本、多个负文本和第一文本确定文本训练集。

39、在一些可能的实施例中,训练集确定模块,用于:

40、从正文本中确定插入词;

41、将插入词插入正文本,得到第二文本;

42、对正文本进行词删除处理,得到第三文本;

43、对正文本进行词交换处理,得到第四文本;

44、基于第二文本、第三文本和第四文本中的一个或者多个,以及多个正文本和多个负文本确定文本训练集。

45、另一方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述的文本去重方法。

46、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的文本去重方法。

47、另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的文本去重方法。

48、本专利技术实施例通过对原始文本进行文本切分,得到至少一个子文本,基于预设文本属性从至少一个子文本中确定目标子文本,目标子文本的文本属性和预设文本属性的关联度满足关联条件,将目标子文本进行拼接重组,得到目标文本,若目标文本和待比较文本的相似度满足相似条件,删除原始文本,待比较文本为预设文本属性对应的文本。本申请实施例通过对原始文本进行无效信息的去除,以减少无效信息在后续目标文本去重中的影响,并经过和待比较文本的相似度的比较,可以有效地进行文本的去重,提高去除了无效信息后的文本的去重率。

本文档来自技高网...

【技术保护点】

1.一种文本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:

3.根据权利要求1或者2所述的文本去重方法,其特征在于,当所述目标子文本的数量为K,且K为大于等于二的整数时,所述将所述目标子文本进行拼接重组,得到目标文本,包括:

4.根据权利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本之前,还包括:

5.根据权利要求4所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本,包括:

6.根据权利要求1所述的文本去重方法,其特征在于,所述对原始文本进行文本切分,得到至少一个子文本之前,还包括:

7.根据权利要求1-6任一所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:

8.根据权利要求7所述的文本去重方法,其特征在于,所述方法还包括:>

9.一种文本去重装置,其特征在于,所述装置包括:

10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~8中任一项所述的文本去重方法。

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8中任一项所述的文本去重方法。

12.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8任一项所述的文本去重方法。

...

【技术特征摘要】

1.一种文本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:

3.根据权利要求1或者2所述的文本去重方法,其特征在于,当所述目标子文本的数量为k,且k为大于等于二的整数时,所述将所述目标子文本进行拼接重组,得到目标文本,包括:

4.根据权利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本之前,还包括:

5.根据权利要求4所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本,包括:

6.根据权利要求1所述的文本去重方法,其特征在于,所述对原始文本进行文本切分,得到至少一个子文本之前,还包括:

7.根据权利要求1-6任一所述的文本去重方法,其特征在于,...

【专利技术属性】
技术研发人员:叶琰李琴
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1