System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对多渠道制造业数据的文本投毒检测方法技术_技高网
当前位置: 首页 > 专利查询>东北大学专利>正文

一种针对多渠道制造业数据的文本投毒检测方法技术

技术编号:40258836 阅读:18 留言:0更新日期:2024-02-02 22:50
本发明专利技术设计一种针对多渠道制造业数据的文本投毒检测方法,首先获取产业链多渠道制造业数据作为原始样本集,将原始样本集输入到预训练语言模型中,提取样本文本中的关键词,作为后续文本特征提取过程的依据;然后提取获取的原始样本集的文本特征,即获取原始样本集在预训练语言模型的最后一层的隐藏状态,用于提取样本在文本空间中特定位置的特征;根据得到的文本特征来检测对抗样本,对原始样本集进行分类,对检测出的对抗样本进行标记;对标记后的对抗文本做迭代净化,若在迭代次数上限内成功净化则存放在数据库内,否则弃用该样本;本方法不需要对每个攻击算法进行训练或验证集,就能获得较好的文本投毒检测效果和对抗防御性能。

【技术实现步骤摘要】

本专利技术涉及多渠道制造业数据领域,具体涉及一种针对多渠道制造业数据的文本投毒检测方法


技术介绍

1、制造业数据来源广泛,例如交易、运输、保险、融资、委托、仓储等方面。在进行数据集成前,数据层次可能会存在一些未知的文本投毒内容。攻击者通过精心设计对抗样本,投放于原始的多渠道制造业数据集内,给之后的模型训练带来极大的负面影响效果。因此,精准对抗这种隐藏的投毒攻击,保证多渠道制造业数据安全是一个重要的科学问题。

2、在数据投毒领域中,对抗攻击的相关研究远多于对抗防御,攻击只需找到数据中的一处缺陷,而防御则要求更为周全的考虑,难度更大,时效性高。现有的对抗防御方法研究主要集中在对抗训练上,对抗训练本身属于模型增强类防御,通过在训练集中增加对抗样本,调整并优化模型参数,再经多轮训练迭代,对于提升nlp模型的鲁棒性展现出非常优秀的效果。

3、然而,这一方法较为依赖已知的或人工构造的对抗样本,存在一定的局限性,无法应对具有创新性的投毒攻击,并且需要付出较高的时间和空间成本。特别是在多渠道制造业数据领域中,nlp模型训练是数据集成的后置任务,传统的对抗训练在面对未知的文本投毒攻击时,其具体表现略逊一筹。目前,多渠道制造业数据呈现指数级增长,大数据技术也在不断发展,对应的深度学习方法也广泛投入到工程应用中。对于多渠道制造业数据而言,缺乏相对完备的数据投毒防御方法和技术,要改变这一现状,有待提出全新的针对文本投毒的理论和对抗防御方法技术。


技术实现思路

1、本专利技术针对上述现有技术的不足之处,提供一种针对多渠道制造业数据的文本投毒检测方法,以解决现有方法无法处理多渠道制造业数据集内可能潜在投毒文本的问题,达到保证模型正常训练的效果。

2、一种针对多渠道制造业数据的文本投毒检测方法,包括以下步骤:

3、步骤1:获取产业链多渠道制造业数据作为原始样本集,将原始样本集输入到预训练语言模型中,提取样本文本中的关键词,作为后续文本特征提取过程的依据;

4、步骤1.1:获取产业链多渠道数据作为原始样本集并对其进行数据预处理,将文本进行切分,去除不表达具体实际含义的标点符号和空格,再对每个词进行符合预训练语言模型输入格式的文本编码操作,将离散的文本转换为连续的文本向量;

5、步骤1.2:使用softmax激活函数处理文本向量,计算不同词的概率分布重要性得分,初步标记得分高的词为关键词,计算softmax得分和标记结果的损失函数,反向传播给预训练语言模型;

6、步骤1.3:通过计算并更新文本梯度,确定不同词在整个文本中的影响程度,使用top-k算法,将影响程度最高的前k个词作为后续文本特征提取过程的依据;

7、步骤2:提取步骤1获取的原始样本集的文本特征,即获取原始样本集在预训练语言模型的最后一层的隐藏状态,用于提取样本在文本空间中特定位置的特征;

8、步骤3:根据步骤2得到的文本特征来检测对抗样本,对原始样本集进行分类;

9、步骤3.1:获取现有真实多渠道制造业数据作为预训练数据集,对预训练数据集进行随机分页处理后训练文本净化器;

10、输入的文本序列x经过对抗文本检测器的检测后,判断文本序列对应的制造业数据是原始样本还是对抗样本,然后将原始样本存放于数据库内,将对抗样本加以标记;

11、所述对抗文本检测器的检测过程,采用最大似然估计mle方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式mcd方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检测投毒文本的效果;

12、所述mle方法:对映射到文本特征空间后的样本集进行初步判定,根据样本数量划分不同大小的聚类簇;

13、所述mcd方法:将协方差行列式最小的特征集所对应的输入样本子集作为聚类簇的核心部分,故通过控制子集的长度对分类边界进行细化;最小协方差行列式在输入样本子集中对样本的离群度敏感,在判定的聚类簇中获取相对于mle更加稳健的估计量;

14、为获取并有效分析估计协方差矩阵的最大和最小特征值信息,采用特征映射函数将n维样本特征向量映射为即文本特征空间的所有样本特征,被对应地映射到特征空间中协方差矩阵第t大特征值的特征向量上;

15、步骤3.2:对所有输入样本进行掩码操作,形成掩码样本并输入遮蔽语言模型;

16、遮蔽语言模型先通过掩码操作来遮蔽投毒文本内容,再根据多渠道制造业数据文本的上下文内容重新预测遮蔽部分,来达到恢复原始数据状态的效果;

17、mask的使用不受限制,即不仅遮蔽x的关键词,还遮蔽其非关键词;对同一个输入样本,mask进行多重掩码和多次掩码,多重掩码是指对输入样本中的多个词进行掩码,多次掩码是指对输入样本生成多个副本,并对不同词进行掩码;

18、步骤3.3:通过真实多渠道制造业数据预训练的遮蔽语言模型,对sm中的掩码样本进行解码操作;

19、解除掩码的过程是由遮蔽语言模型来填充每个掩码样本中的[mask],采用top-k算法在候选词集中选择要填充的词语;若输入样本在经过掩码和解码过程后的所属渠道分类结果不同,则对抗样本检测器会将该输入样本判定为对抗样本,进而达到文本投毒检测的目标;

20、在目标模型中引入对抗阈值,对任意输入的多渠道制造业数据文本序列x,根据遮蔽语言模型和目标模型定义用于区分输入样本分类结果的评估分数,即对抗阈值;再根据输入样本的长度、特征和所属渠道设置阈值,获得使用对抗阈值优化的文本分类器,有助于选择能够最大限度提高检测精度的参数值,并将相同的参数值应用在文本投毒检测中;

21、对掩码后的样本集进行文本嵌入,需要分别计算掩码样本所对应的原始输入样本和自身输入经过加权后的和,其权重定义为关键词输入softmax激活函数后得到的重要性得分;再将嵌入结果向量输入对抗样本检测器的双向自注意力层,依据从输入样本x自身的解离态获取的每个词的特征以及文本上下文信息,对[mask]部分进行预测;预测结束后生成多个候选副本,需要综合多个候选副本的[mask]预测结果,给出每个词的最终预测,作为最终的输出样本,即净化后的样本,然后将其输入目标模型中;

22、步骤3.4:将净化后的样本输入目标模型,经过目标模型计算并输出对多渠道制造业数据的分类结果;

23、步骤4:对标记后的对抗文本做迭代净化,若在迭代次数上限内成功净化则存放在数据库内,否则弃用该样本;

24、对抗样本检测器经过多轮分类和学习过程,多渠道制造业数据在不同维度上的特征逐步细化,对已标记的对抗样本采用迭代净化方式,使得对抗样本在经过多次净化后,依然能够保持其语义的不变性。

25、本专利技术具有以下有益技术效果:

26、本专利技术考虑了对抗训练的局限性,通过文本投毒检测的方式判断输入样本是否为对抗样本,进而控制样本是否能被输入至目标模型中;通过引入统计学方法最大似然估计和最小协方差行本文档来自技高网...

【技术保护点】

1.一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤1具体为:

3.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3具体为:

4.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述对抗文本检测器的检测过程,采用最大似然估计MLE方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式MCD方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检测投毒文本的效果。

5.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述MLE方法:对映射到文本特征空间后的样本集进行初步判定,根据样本数量划分不同大小的聚类簇;

6.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.2所述遮蔽语言模型先通过掩码操作来遮蔽投毒文本内容,再根据多渠道制造业数据文本的上下文内容重新预测遮蔽部分,来达到恢复原始数据状态的效果;

7.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.3所述解除掩码的过程是由遮蔽语言模型来填充每个掩码样本中的[MASK],采用Top-k算法在候选词集中选择要填充的词语;若输入样本在经过掩码和解码过程后的所属渠道分类结果不同,则对抗样本检测器会将该输入样本判定为对抗样本,进而达到文本投毒检测的目标;

8.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤4对标记后的对抗文本做迭代净化具体为:

...

【技术特征摘要】

1.一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤1具体为:

3.根据权利要求1所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3具体为:

4.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述对抗文本检测器的检测过程,采用最大似然估计mle方法确定制造业数据所归属的具体渠道,然后采用最小协方差行列式mcd方法来判断离群点对应离群样本对应数据的所属渠道是否准确,达到检测投毒文本的效果。

5.根据权利要求3所述的一种针对多渠道制造业数据的文本投毒检测方法,其特征在于,步骤3.1所述mle方法:对映射到文本特征空间后的样本集进行初步判定,根据...

【专利技术属性】
技术研发人员:郭佳乐孙永佼季航旭毕鑫
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1