【技术实现步骤摘要】
内容检测方法、装置和计算机可读存储介质
[0001]本申请涉及互联网
,具体涉及一种内容检测方法、装置和计算机可读存储介质。
技术介绍
[0002]近年来,随着互联网技术的快速发展,越来越多的视频和图文等内容的作品在各种各样的平台中广泛发布。其中,这些发布的内容中存在着许多侵害产权方的合法权益的内容,这些侵权内容通过人为引入的噪声来规避内容检测,危害产权方的合法权益。
[0003]在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有技术中并不能很好的检测出加噪后的侵权内容是否侵权,使得内容检测结果的准确性较差,内容检测效率较低。
技术实现思路
[0004]本申请实施例提供一种内容检测方法、装置和计算机可读存储介质,可以提高内容检测结果的准确性,进而提高内容检测效率。
[0005]本申请实施例提供一种内容检测方法,包括:
[0006]获取待检测内容和源内容集合,所述源内容集合包括至少一个具有版权的源内容;
[0007]对所述待检测内容进行多模态特征提取,得到每一模态的待检测模态特征,并对所述源内容进行多模态特征提取,得到每一模态的源模态特征;
[0008]计算所述待检测模态特征与对应模态的源模态特征的相似度,得到每一模态的模态相似度;
[0009]根据所述待检测模态特征,确定每一模态的模态权重,并基于所述模态权重对所述模态相似度进行加权;
[0010]基于加权后模态相似度,在所述源内容集合中检测出所述待检测内容的版权信息。 >[0011]相应的,本申请实施例提供一种内容检测装置,包括:
[0012]获取单元,用于获取待检测内容和源内容集合,所述源内容集合包括至少一个具有版权的源内容;
[0013]特征提取单元,用于对所述待检测内容进行多模态特征提取,得到每一模态的待检测模态特征,并对所述源内容进行多模态特征提取,得到每一模态的源模态特征;
[0014]计算单元,用于计算所述待检测模态特征与对应模态的源模态特征的相似度,得到每一模态的模态相似度;
[0015]确定单元,用于根据所述待检测模态特征,确定每一模态的模态权重,并基于所述模态权重对所述模态相似度进行加权;
[0016]检测单元,用于基于加权后模态相似度,在所述源内容集合中检测出所述待检测
内容的版权信息。
[0017]在一实施例中,所述确定单元,包括:
[0018]模态重要分数识别子单元,用于识别所述待检测模态特征对应的模态重要分数;
[0019]模态质量分数检测子单元,用于检测所述待检测模态特征的模态质量分数;
[0020]系数融合子单元,用于对所述模态重要分数和对应模态的模态质量分数进行融合,得到每一模态的模态权重。
[0021]在一实施例中,所述检测单元,包括:
[0022]相似度融合子单元,用于将每一模态对应的加权后模态相似度进行融合,得到每一源内容对应的总加权后模态相似度;
[0023]筛选子单元,用于根据所述总加权后模态相似度,在所述源内容集合中筛选出目标源内容;
[0024]版权信息确定子单元,用于基于所述目标源内容,确定所述待检测内容的版权信息。
[0025]在一实施例中,所述特征提取单元,包括:
[0026]模态提取子单元,用于对所述待检测内容进行多模态提取,得到每一模态的待检测模态数据,并对所述源内容进行多模态提取,得到每一模态的源模态数据;
[0027]编码器确定子单元,用于根据每一模态对应的模态类型,分别确定所述待检测模态数据和源模态数据对应的编码器;
[0028]待检测提取子单元,用于基于所述待检测模态数据对应的编码器,对所述待检测模态数据进行特征提取,得到每一模态的待检测模态特征;
[0029]源提取子单元,用于基于所述源模态数据对应的编码器,对所述源模态数据进行特征提取,得到每一模态的源模态特征。
[0030]在一实施例中,所述确定单元,包括:
[0031]模型确定子单元,用于根据所述待检测模态特征,采用训练后内容检测模型确定每一模态的模态权重,并基于所述模态权重对所述模态相似度进行加权。
[0032]在一实施例中,所述内容检测装置,还包括:
[0033]样本获取单元,用于获取至少一个内容样本对,所述内容样本对包括检测内容样本、源内容样本和标注版权信息;
[0034]权重预测单元,用于采用预设内容检测模型基于所述检测内容样本和标注版权信息预测每一模态的模态权重,得到预测模态权重;
[0035]相似度预测单元,用于基于所述预测模态权重,预测所述内容样本对的模态相似度,得到每一模态的预测模态相似度;
[0036]收敛单元,用于根据所述预测模态相似度和标注版权信息,对所述预设内容检测模型进行收敛,得到训练后内容检测模型。
[0037]在一实施例中,所述收敛单元,包括:
[0038]计算子单元,用于根据每一模态的预测模态相似度,计算所述内容样本对的总预测模态相似度;
[0039]损失信息确定子单元,用于基于所述总预测模态相似度和对应的标注版权信息,确定每一内容样本对的目标损失信息;
[0040]收敛子单元,用于基于所述目标损失信息,对所述预设内容检测模型进行收敛,得到训练后内容检测模型。
[0041]在一实施例中,所述权重预测单元,包括:
[0042]样本特征提取子单元,用于采用所述权重确定子模型对所述检测内容样本进行多模态特征提取,得到每一模态的样本模态特征;
[0043]相关系数计算子单元,用于计算每一模态的样本模态特征和所述标注版权信息的相关系数;
[0044]预测模态权重确定子单元,用于基于所述相关系数,确定每一模态的预测模态权重。
[0045]此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种内容检测方法中的步骤。
[0046]此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的内容检测方法。
[0047]本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的内容检测方法中的步骤。
[0048]本申请实施例通过获取待检测内容和源内容集合,源内容集合包括至少一个具有版权的源内容;对待检测内容进行多模态特征提取,得到每一模态的待检测模态特征,并对源内容进行多模态特征提取,得到每一模态的源模态特征;计算待检测模态特征与对应模态的源模态特征的相似度,得到每一模态的模态相似度;根据待检测模态特征本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种内容检测方法,其特征在于,包括:获取待检测内容和源内容集合,所述源内容集合包括至少一个具有版权的源内容;对所述待检测内容进行多模态特征提取,得到每一模态的待检测模态特征,并对所述源内容进行多模态特征提取,得到每一模态的源模态特征;计算所述待检测模态特征与对应模态的源模态特征的相似度,得到每一模态的模态相似度;根据所述待检测模态特征,确定每一模态的模态权重,并基于所述模态权重对所述模态相似度进行加权;基于加权后模态相似度,在所述源内容集合中检测出所述待检测内容的版权信息。2.如权利要求1所述的内容检测方法,其特征在于,所述根据所述待检测模态特征,确定每一模态的模态权重,包括:识别所述待检测模态特征对应的模态重要分数;检测所述待检测模态特征的模态质量分数;对所述模态重要分数和对应模态的模态质量分数进行融合,得到每一模态的模态权重。3.如权利要求1所述的内容检测方法,其特征在于,所述基于加权后模态相似度,在所述源内容集合中检测出所述待检测内容的版权信息,包括:将每一模态对应的加权后模态相似度进行融合,得到每一源内容对应的总加权后模态相似度;根据所述总加权后模态相似度,在所述源内容集合中筛选出目标源内容;基于所述目标源内容,确定所述待检测内容的版权信息。4.如权利要求1所述的内容检测方法,其特征在于,所述对所述待检测内容进行多模态特征提取,得到每一模态的待检测模态特征,并对所述源内容进行多模态特征提取,得到每一模态的源模态特征,包括:对所述待检测内容进行多模态提取,得到每一模态的待检测模态数据,并对所述源内容进行多模态提取,得到每一模态的源模态数据;根据每一模态对应的模态类型,分别确定所述待检测模态数据和源模态数据对应的编码器;基于所述待检测模态数据对应的编码器,对所述待检测模态数据进行特征提取,得到每一模态的待检测模态特征;基于所述源模态数据对应的编码器,对所述源模态数据进行特征提取,得到每一模态的源模态特征。5.如权利要求1至4中任一项所述的内容检测方法,其特征在于,所述根据所述待检测模态特征,确定每一模态的模态权重,并基于所述模态权重对所述模态相似度进行加权,包括:根据所述待检测模态特征,采用训练后内容检测模型确定每一模态的模态权重,并基于所述模态权重对所述模态相似度进行加权。6.如权利要求5所述的内容检测方法,其特征在于,所述根据所述待检测模态特征,采用训练后内容检测模型确定每一模态的模态权重,并基于所述模态权重对所述模态相似度
进行加权之前,还包括:获取至少一个内容样本对,所述内容样本对包括检测内容样本、源内容样本和标注版权信息;采用预设内...
【专利技术属性】
技术研发人员:侯逸帆,杨奕凡,张子恒,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。