System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及信息处理,尤其涉及一种内容数据检测方法、设备、存储介质和程序产品。
技术介绍
1、随着人工智能技术的迅猛发展,尤其是大规模预训练模型的问世,内容创作的方式和效率得到了极大的提升。这些大模型可以生成高质量的文本、图像、音频和视频,帮助创作者提高生产力。
2、然而,这种技术的普及也带来了新的挑战和问题,特别是在作品保护和原创性方面。洗稿是指通过对原始作品进行细微修改,使其在形式上看似不同,实质内容却未发生根本性变化的行为。ai大模型洗稿是指通过ai大模型对现有作品进行微调如风格转换、局部编辑等操作的行为。由于ai大模型强大的生成能力,ai大模型洗稿成本极低且能够产生和原作品高度相似的作品。
3、这种洗稿行为不仅严重侵犯了创作者的作品,还对平台的内容质量和声誉造成了负面影响。因此,如何准确检测作品内容是否被洗稿,成为亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提供一种内容数据检测方法、设备、存储介质和程序产品,实现了对内容数据是否为洗稿数据的高效检测,提高了洗稿检测的准确性、扩展了洗稿检测的适用性。
2、第一方面,本申请实施例提供一种内容数据检测方法,包括:响应于数据检测指令,获取待测内容数据;将所述待测内容数据输入预设特征提取模型,以使所述特征提取模型输出所述待测内容数据的目标数据特征,其中,所述预设特征提取模型是基于第一样本数据集训练得到的,所述第一样本数据集包括存在洗稿关系的第一样本对和不存在洗稿关系的第二样本对;
3、于一实施例中,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:获取所述第一样本数据集所述第一样本对标注了存在洗稿关系的标签,所述第二样本对标注了不存在洗稿关系的标签;采用所述第一样本数据集训练预设神经网络模型,并在训练后去除所述神经网络的全连接层,得到所述特征提取模型。
4、于一实施例中,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:获取所述第一样本数据集;根据所述第一样本数据集,采用对比学习训练策略训练预设神经网络模型,并在训练后去除所述神经网络的全连接层,得到所述特征提取模型。
5、于一实施例中,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:获取有标签的第一样本数据集和无标签的第二样本数据集,所述第一样本对标注了存在洗稿关系的标签,所述第二样本对标注了不存在洗稿关系的标签;根据所述第二样本数据集,采用自监督学习的训练策略训练预设神经网络模型,得到预训练模型;采用所述第一样本数据集对所述预训练模型进行微调训练,并在训练后去除所述预训练模型的全连接层,得到所述特征提取模型。
6、于一实施例中,还包括:获取原始内容数据样本;将所述原始内容数据样本输入不同的大模型,以使所述不同的大模型分别对所述原始内容数据样本进行预设的洗稿操作,生成所述原始内容数据样本对应的至少一个洗稿样本;将所述原始内容数据样本和所述至少一个洗稿样本的集合确定为所述样本数据集。
7、于一实施例中,还包括:获取原始内容数据样本;采用所述原始内容数据样本微调预设大模型;将预设提示词输入微调后的大模型,以使所述微调后的大模型根据所述预设提示词生成所述原始内容数据样本对应的洗稿样本;将所述原始内容数据样本和所述洗稿样本的集合确定为所述样本数据集。
8、于一实施例中,所述预设的参考数据包括配置在预设特征库中的多个原创内容数据的参考特征;所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:根据所述目标数据特征在所述预设特征库中进行搜索,判断所述预设特征库中是否存在与所述目标数据特征之间的第一相似度在第一预设范围 内的目标参考特征;若所述预设特征库中存在所述目标参考特征,确定所述待测内容数据为洗稿数据;若所述预设特征库中不存在所述目标参考特征,确定所述待测内容数据不是洗稿数据。
9、于一实施例中,所述预设的参考数据包括用户指定的参考内容数据;所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:获取用户指定的所述参考内容数据,并提取所述参考内容数据的参考特征;根据所述目标数据特征和所述参考特征,确定所述待测内容数据是否为洗稿数据。
10、于一实施例中,所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:计算所述目标数据特征与所述参考数据的参考特征之间的第二相似度;判断所述第二相似度是否在第二预设范围内;若所述第二相似度在所述第二预设范围内,确定所述待测内容数据为洗稿数据;所述第二相似度不在所述第二预设范围内,确定所述待测内容数据不是洗稿数据。
11、于一实施例中,所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:将所述参考数据的参考特征和所述目标数据特征输入预设分类器,通过所述预设分类器识别所述待测内容数据与所述参考数据之间的洗稿关系信息。
12、第二方面,本申请实施例提供一种关于商品的内容数据检测方法,包括:响应于用户的数据检测指令,获取待测内容数据,所述待测内容数据包括商品信息;将所述待测内容数据输入预设特征提取模型,以使所述特征提取模型输出所述待测内容数据的目标数据特征,其中,所述预设特征提取模型是基于第一样本数据集训练得到的,所述第一样本数据集包括存在洗稿关系的第一样本对和不存在洗稿关系的第二样本对;根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,所述参考数据为原创数据。
13、第三方面,本申请实施例提供一种内容数据检测装置,包括:
14、获取模块,用于响应于数据检测指令,获取待测内容数据;
15、提取模块,用于将所述待测内容数据输入预设特征提取模型,以使所述特征提取模型输出所述待测内容数据的目标数据特征,其中,所述预设特征提取模型是基于第一样本数据集训练得到的,所述第一样本数据集包括存在洗稿关系的第一样本对和不存在洗稿关系的第二样本对;
16、确定模块,用于根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,所述参考数据为原创数据。
17、于一实施例中,还包括:第一训练模块,用于在所述将所述待测内容数据输入预设特征提取模型之前,获取所述第一样本数据集所述第一样本对标注了存在洗稿关系的标签,所述第二样本对标注了不存在洗稿关系的标签;采用所述第一样本数据集训练预设神经网络模型,并在训练后去除所述神经网络的全连接层,得到所述特征提取模型。
18、于一实施例中,还包括:第二训练模块,用于在所述将所述待测内容数据输入预设特征提取模型之前,获取所述第一样本数据集;根据所述第一样本数据集,采用对比学习训练策略训练预设神经网络模型,并在训练后去除所述神经网络的全连接层,得到所述特征提取模型本文档来自技高网...
【技术保护点】
1.一种内容数据检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:获取所述第一样本数据集所述第一样本对标注了存在洗稿关系的标签,所述第二样本对标注了不存在洗稿关系的标签;
3.根据权利要求1所述的方法,其特征在于,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:
4.根据权利要求1所述的方法,其特征在于,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求1所述的方法,其特征在于,所述预设的参考数据包括配置在预设特征库中的多个原创内容数据的参考特征;所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:
8.根据权利要求1所述的方法,其特征在于,所述预设的参考数据包括用户指定的参考内容数据;所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是
9.根据权利要求1或8所述的方法,其特征在于,所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:
10.根据权利要求1或8所述的方法,其特征在于,所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:
11.一种关于商品的内容数据检测方法,其特征在于,包括:
12.一种电子设备,其特征在于,包括:
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-11任一项所述的方法。
14.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的方法。
...【技术特征摘要】
1.一种内容数据检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:获取所述第一样本数据集所述第一样本对标注了存在洗稿关系的标签,所述第二样本对标注了不存在洗稿关系的标签;
3.根据权利要求1所述的方法,其特征在于,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:
4.根据权利要求1所述的方法,其特征在于,在所述将所述待测内容数据输入预设特征提取模型之前,还包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求1所述的方法,其特征在于,所述预设的参考数据包括配置在预设特征库中的多个原创内容数据的参考特征;所述根据所述目标数据特征和预设的参考数据,确定所述待测内容数据是否为洗稿数据,包括:
8.根据权利要求1所述的方法...
【专利技术属性】
技术研发人员:刘佳睿,曾吉申,杨锐,傅晓蔚,叶智飞,郭颖,余阳,曹晴,戴秀秀,
申请(专利权)人:浙江天猫技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。