System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据管理,特别是涉及一种文本判重方法、装置、电子设备、存储介质及车辆。
技术介绍
1、在信息时代,文本数据的获取手段多种多样,获取的文本数据量也爆炸式增长,为了增加文本数据之间的独立性,需要对文本数据进行重复性判断,即文本判重。通过文本判重,可以识别出与库存文本数据相似性较高的待判文本数据,为后续删除相似性较高的文本数据提高整体文本数据的参考价值提供判断依据。
2、通常,文本判重是对文本数据中的全文关键词进行判重得到判重结果,例如,文本判重可以采用simhash对通用文本数据进行重复文本提取,得到对应的判重结果,但是该判重结果没有考虑文本的上下文语义关系,只是从词语重复的维度进行判重,导致判重结果中重复性维度单一,从而得到片面的判重结果。
技术实现思路
1、有鉴于此,本申请的目的在于提出一种文本判重方法、装置、电子设备、存储介质及车辆,用以解决或部分解决上述技术问题。
2、基于上述目的,本申请的第一方面提供了一种文本判重方法,所述方法包括:
3、获取库存文本数据和待判文本数据;
4、对所述库存文本数据和所述待判文本数据进行分词处理,得到与所述库存文本数据对应的库存分词数据和与所述待判文本数据对应的待判分词数据;
5、按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果,其中,所述关键词判重结果包括全文关键词判重结果和车辆关键词判重结果;
6、按照所述库存分词数据对所述待判分词数据进
7、按照所述库存分词数据对所述待判分词数据进行业务类别判重,得到类别判重结果;
8、对所述关键词判重结果、语义判重结果和类别判重结果进行相加确定所述待判文本数据的判重结果。
9、本申请的第二方面提供了一种文本判重装置,包括:
10、获取模块,被配置为获取库存文本数据和待判文本数据;
11、分词模块,被配置为对所述库存文本数据和所述待判文本数据进行分词处理,得到与所述库存文本数据对应的库存分词数据和与所述待判文本数据对应的待判分词数据;
12、关键词判重模块,被配置为按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果,其中,所述关键词判重结果包括全文关键词判重结果和车辆关键词判重结果;
13、语义判重模块,被配置为按照所述库存分词数据对所述待判分词数据进行语义判重,得到语义判重结果,其中,所述语义判重结果包括全文语义判重结果和车辆语义判重结果;
14、类别判重模块,被配置为按照所述库存分词数据对所述待判分词数据进行业务类别判重,得到类别判重结果;
15、结果模块,被配置为对所述关键词判重结果、语义判重结果和类别判重结果进行相加确定所述待判文本数据的判重结果。
16、本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
17、本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述方法。
18、从上面所述可以看出,本申请提供的文本判重方法、装置、电子设备、存储介质及车辆,采用关键词判重、语义判重和业务类别判重对待判文本数据进行判重,将待判文本数据的语句语义重复性和文章重复性加入词语重复性的判重结果中,使得判重结果中的词语重复维度扩展为语句重复维度和文章重复维度,从而丰富了判重结果中重复性维度,进而增加了判重结果的精确性;将关键词判重结果、语义判重结果和类别判重结果进行相加,改变了采用关键词判重结果作为判重结果的判重逻辑,避免了将关键词判重结果作为判重结果的逻辑片面性,得到覆盖词语重复、语义重复和文章重复的全面的判重结果。
本文档来自技高网...【技术保护点】
1.一种文本判重方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果,包括:
3.如权利要求2所述的方法,其特征在于,所述采用SimHash对所述库存分词数据和所述待判分词数据进行关键词判重,得到全文关键词判重结果,包括:
4.如权利要求2所述的方法,其特征在于,所述采用所述SimHash对所述库存车辆分词和所述待判车辆分词进行关键词判重,得到车辆关键词判重结果,包括:
5.如权利要求2所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行语义判重,得到语义判重结果,包括:
6.如权利要求5所述的方法,其特征在于,所述采用语义相似度算法对所述库存分词数据和所述待判分词数据进行语义判重,得到全文语义判重结果,包括:
7.如权利要求5所述的方法,其特征在于,所述采用所述语义相似度算法对所述库存车辆分词和所述待判车辆分词进行语义判重,得到车辆语义判重结果,包括:
8.如权利要求2所述的方法,
9.如权利要求1所述的方法,其特征在于,所述对所述关键词判重结果、语义判重结果和类别判重结果进行相加确定所述待判文本数据的判重结果,包括:
10.一种文本判重装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至9任意一项所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至9任一所述方法。
13.一种车辆,其特征在于,包括:如权利要求10所述的文本判重装置,或如权利要求11所述的电子设备,或如权利要求12所述的存储介质。
...【技术特征摘要】
1.一种文本判重方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行关键词判重,得到关键词判重结果,包括:
3.如权利要求2所述的方法,其特征在于,所述采用simhash对所述库存分词数据和所述待判分词数据进行关键词判重,得到全文关键词判重结果,包括:
4.如权利要求2所述的方法,其特征在于,所述采用所述simhash对所述库存车辆分词和所述待判车辆分词进行关键词判重,得到车辆关键词判重结果,包括:
5.如权利要求2所述的方法,其特征在于,所述按照所述库存分词数据对所述待判分词数据进行语义判重,得到语义判重结果,包括:
6.如权利要求5所述的方法,其特征在于,所述采用语义相似度算法对所述库存分词数据和所述待判分词数据进行语义判重,得到全文语义判重结果,包括:
7.如权利要求5所述的方法,其特征在于,所述采用所述语义相似度算法对所述库存车辆分词和所述...
【专利技术属性】
技术研发人员:黄海涛,焦俊铭,杜鹏,乔举义,王阳,杨鲛,
申请(专利权)人:北京罗克维尔斯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。