System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据分析,具体涉及一种用于富文本内容查重的方法、处理器以及存储介质。
技术介绍
1、富文本查重主要是对内容平台不同富文本内容进行比对,达到对富文本内容重复度的识别,提高内容的运营质量,目前市面上主要的查重方式是基于文本内容,现今常用的内容查重的方式使用simhash+汉明距离计算的方法对内容进行查重。该方法通过提取内容关键词得到关键词词组;用hash算法将word转为固定长度的二进制值的字符串,通过计算得出内容的simhash值;基于simhash值计算不同内容的海明距离,得出相似的内容。但是,该方法无法处理富文本内容,尤其是包含媒体内容的资源,导致内容查重的准确度较低。因此,现有技术存在对富文本内容的查重的准确度较低的问题。
技术实现思路
1、本申请实施例的目的是提供一种用于富文本内容查重的方法、处理器以及存储介质。
2、为了实现上述目的,本申请实施例第一方面提供一种用于富文本内容查重的方法,该方法包括:
3、对富文本内容进行类别拆分,以得到文本内容和媒体内容,媒体内容包括图片内容、音频内容以及视频内容;
4、对音频内容和视频内容进行转化,以得到文本内容和图片内容;
5、分别对文本内容和图片内容进行特征提取,以得到多个特征值;
6、基于夹角余弦值确定文本内容的特征值的相似度;
7、基于海明距离确定图片内容的特征值的相似度;
8、根据相似度确定富文本内容的重复内容。
9、在本申
10、在本申请实施例中,对音频内容和视频内容进行转化,以得到文本内容和图片内容,包括:对音频内容进行语音识别,以得到字幕文件;对字幕文件进行特征提取,以得到文本内容,其中,特征包括时长特征和停顿间隔特征;以及基于预设视频提取框架,对视频内容进行图片提取,以得到图片内容。
11、在本申请实施例中,特征值包括词汇向量特征值,对文本内容进行特征提取,以得到多个特征值,包括:对于文本内容,将文本内容输入深度学习自然语言处理模型,得到文本向量;提取文本向量中的词汇向量值,以得到文本内容的词汇向量特征值的集合。
12、在本申请实施例中,特征值包括指纹码特征值;对图片内容进行特征提取,以得到多个特征值,包括:对于图片内容,通过感知哈希算法将图片内容按照预设格式进行压缩处理,以得到压缩后的图片;对压缩后的图片进行灰度化和离散余弦变换处理,以得到目标图片;获取目标图片的像素点;确定各像素点所在的像素区段,以得到图片内容的多个指纹码特征值。
13、在本申请实施例中,基于夹角余弦值确定文本内容的特征值的相似度,包括:对于文本内容,将任意两篇文本内容进行抽取对比,以得到文本内容的公共词;计算两篇文本内容的公共词向量的夹角余弦值,以确定两篇文本内容的相似度。
14、在本申请实施例中,媒体内容包括图片内容,基于海明距离确定图片内容的特征值的相似度,包括:对于图片内容,计算任意两篇图片内容的海明距离结果值;根据海明距离结果值确定两篇图片内容的相似度。
15、在本申请实施例中,根据相似度确定富文本内容的重复内容,包括:将相似度大于预设相似度阈值的内容确定富文本内容的重复内容。
16、本申请实施例第二方面提供一种用于富文本内容查重的装置,包括:内容拆分模块,用于对富文本内容进行类别拆分,以得到文本内容和媒体内容,媒体内容包括图片内容、音频内容以及视频内容;内容转化模块,用于对音频内容和视频内容进行转化,以得到文本内容和图片内容;特征提取模块,用于分别对文本内容和图片内容进行特征提取,以得到多个特征值;相似度确定模块,用于基于夹角余弦值确定文本内容的特征值的相似度,以及基于海明距离确定图片内容的特征值的相似度;查重模块,用于根据相似度确定富文本内容的重复内容。
17、本申请实施例第三方面提供一种处理器,被配置成执行上述的用于富文本内容查重的方法。
18、本申请实施例第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的用于富文本内容查重的方法。
19、本申请第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据上述的用于富文本内容查重的方法。
20、上述技术方案,首先对富文本内容进行类别拆分,以得到文本内容和媒体内容,其中,媒体内容包括图片内容、音频内容以及视频内容。再分别将音频内容转化为文本内容、将视频内容转化为图片内容。再分别对文本内容和图片内容进行特征提取,以得到多个特征值。基于夹角余弦值确定文本内容的特征值的相似度,以及基于海明距离确定图片内容的特征值的相似度。最后,可以根据相似度确定富文本内容的重复内容。上述技术方案,通过将富文本进行拆分,得出文本内容和媒体内容,并通过转化得到文本内容和图片内容,再分别通过不同的计算方法计算文本内容的相似度和图片内容的相似度,以进行富文本内容的查重,可避免不同类型内容带来的计算差异性,提高对富文本内容的查重的准确度。
21、本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
本文档来自技高网...【技术保护点】
1.一种用于富文本内容查重的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对富文本内容进行类别拆分,以得到文本内容和媒体内容,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述音频内容和所述视频内容进行转化,以得到所述文本内容和所述图片内容,包括:
4.根据权利要求1所述的方法,其特征在于,所述特征值包括词汇向量特征值,对文本内容进行特征提取,以得到多个特征值,包括:
5.根据权利要求1所述的方法,其特征在于,所述特征值包括指纹码特征值;对图片内容进行特征提取,以得到多个特征值,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于夹角余弦值确定所述文本内容的特征值的相似度,包括:
7.根据权利要求1所述的方法,其特征在于,所述媒体内容包括图片内容,所述基于海明距离确定所述图片内容的特征值的相似度,包括:
8.根据权利要求1所述的方法,其特征在于,所述根据所述相似度确定所述富文本内容的重复内容,包括:
9.一种用于富文本内容查重的装置,其
10.一种处理器,其特征在于,被配置成执行根据权利要求1至8中任意一项所述的用于富文本内容查重的方法。
11.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至8中任一项所述的用于富文本内容查重的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的用于富文本内容查重的方法。
...【技术特征摘要】
1.一种用于富文本内容查重的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对富文本内容进行类别拆分,以得到文本内容和媒体内容,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述音频内容和所述视频内容进行转化,以得到所述文本内容和所述图片内容,包括:
4.根据权利要求1所述的方法,其特征在于,所述特征值包括词汇向量特征值,对文本内容进行特征提取,以得到多个特征值,包括:
5.根据权利要求1所述的方法,其特征在于,所述特征值包括指纹码特征值;对图片内容进行特征提取,以得到多个特征值,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于夹角余弦值确定所述文本内容的特征值的相似度,包括:
7.根据权利要求1所述的方法,...
【专利技术属性】
技术研发人员:余兴炳,王志颖,张熙来,王思梦,秦瑞雄,赵金鑫,熊威,杨扬,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。