System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,特别涉及一种文本去重方法、装置、电子设备及存储介质。
技术介绍
1、随着互联网技术发展,各种信息在互联网上的传播越来越方便。然而,在大量信息因互联网得到传播的同时,越来越多的重复信息也不断在互联网上出现,影响用户获取信息的效率。
2、比如,同一份文本内容经常被互联网上多个平台多个公众号通过修改部分内容后,再进行转载,导致我们获取到的有效信息存在大量重复的问题。
技术实现思路
1、为了解决现有技术的问题,本专利技术实施例提供了一种文本去重方法、装置、电子设备及存储介质。技术方案如下:
2、一方面,提供了一种文本去重方法,方法包括:
3、对原始文本进行文本切分,得到至少一个子文本;
4、基于预设文本属性从至少一个子文本中确定目标子文本;目标子文本的文本属性和预设文本属性的关联度满足关联条件;
5、将目标子文本进行拼接重组,得到目标文本;
6、若目标文本和待比较文本的相似度满足相似条件,删除原始文本;待比较文本为预设文本属性对应的文本。
7、另一方面,提供了一种文本去重装置,装置包括:
8、文本切分模块,用于对原始文本进行文本切分,得到至少一个子文本;
9、文本确定模块,用于基于预设文本属性从至少一个子文本中确定目标子文本;目标子文本的文本属性和预设文本属性的关联度满足关联条件;
10、文本拼接模块,用于将目标子文本进行拼接重组,得到目标文本;
...【技术保护点】
1.一种文本去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:
3.根据权利要求1或者2所述的文本去重方法,其特征在于,当所述目标子文本的数量为K,且K为大于等于二的整数时,所述将所述目标子文本进行拼接重组,得到目标文本,包括:
4.根据权利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本之前,还包括:
5.根据权利要求4所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本,包括:
6.根据权利要求1所述的文本去重方法,其特征在于,所述对原始文本进行文本切分,得到至少一个子文本之前,还包括:
7.根据权利要求1-6任一所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:
8.根据权利要求7所述的文本去重方法,其特征在于,所述方法还包括:
>9.一种文本去重装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~8中任一项所述的文本去重方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8中任一项所述的文本去重方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8任一项所述的文本去重方法。
...【技术特征摘要】
1.一种文本去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:
3.根据权利要求1或者2所述的文本去重方法,其特征在于,当所述目标子文本的数量为k,且k为大于等于二的整数时,所述将所述目标子文本进行拼接重组,得到目标文本,包括:
4.根据权利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本之前,还包括:
5.根据权利要求4所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本,包括:
6.根据权利要求1所述的文本去重方法,其特征在于,所述对原始文本进行文本切分,得到至少一个子文本之前,还包括:
7.根据权利要求1-6任一所述的文本去重方法,其特征在于,...
【专利技术属性】
技术研发人员:叶琰,李琴,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。