当前位置: 首页 > 专利查询>清华大学专利>正文

一种文本后门攻击方法及系统技术方案

技术编号:31311488 阅读:22 留言:0更新日期:2021-12-12 21:44
本发明专利技术提供一种文本后门攻击方法及系统,该方法包括:获取中毒文本样本训练集,所述中毒文本样本训练集中的中毒文本样本是通过对原始文本样本进行同义词替换得到的;将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型;将文本样本测试集输入到所述完成后门训练的受害模型中,得到模型后门触发结果,所述文本样本测试集包括有中毒文本测试样本,所述中毒文本测试样本是通过对原始文本样本进行同义词替换得到的。本发明专利技术通过使用同义词替换后门攻击的触发特征,使得后门攻击方法更具隐蔽性,生成的中毒样本和普通样本难以区分,更有助于发现当前自然语言处理模型的弱点。点。点。

【技术实现步骤摘要】
一种文本后门攻击方法及系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本后门攻击方法及系统。

技术介绍

[0002]后门攻击是针对机器学习,尤其是深度学习模型的一种新兴的安全威胁。后门攻击通常在训练过程中将后门注入受害模型,使得受害模型在测试阶段面对正常的输入时正常工作,与没有后门的正常模型无异;但是,在输入含有预先设计的触发特征时,受害模型能够输出特定的结果。例如,被后门攻击的人脸识别系统,可以正确地识别一般的人脸图像,但是当遇到戴着预设颜色眼镜的人脸时,无论戴着眼镜的人脸究竟对应哪个人,受害模型均会将其识别为某个特定的人。
[0003]由于在面对不含有触发特征的正常输入时,注入后门的模型与正常模型表现一致,无法区分,因此模型的使用者很难意识到后门的存在,这使得后门攻击具有极高的隐蔽性和危害性。
[0004]通过研究文本后门攻击技术,可以检测自然语言处理模型的安全性和鲁棒性,管控自然语言处理模型投入实际应用的风险。目前的文本后门攻击方法,主要以额外插入的某个特定词语作为触发特征。尽管这些方法已经实现了较高的后门攻击成功率,但是其隐蔽性较差,额外插入词语会明显地破坏原文本的语法性和流畅性,这些词语很容易被检测出来,进而导致攻击失败,以致于针对文本后门攻击的模型检测效果较差,难以准确的发现模型的弱点。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供一种文本后门攻击方法及系统。
[0006]本专利技术提供一种文本后门攻击方法,包括:
[0007]获取中毒文本样本训练集,所述中毒文本样本训练集中的中毒文本样本是通过对原始文本样本进行同义词替换得到的;
[0008]将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型;
[0009]将文本样本测试集输入到所述完成后门训练的受害模型中,得到模型后门触发结果,所述文本样本测试集包括有中毒文本测试样本,所述中毒文本测试样本是通过对原始文本样本进行同义词替换得到的。
[0010]根据本专利技术提供的一种文本后门攻击方法,所述获取中毒文本样本训练集,包括:
[0011]根据原始文本样本中每个原始词语的词性,生成每个原始词语的候选替换词集合;
[0012]根据所述候选替换词集合,对所述原始文本样本中对应的原始词语进行同义词替换,得到待投毒文本样本;
[0013]根据所述待投毒文本样本,构建中毒文本样本训练集。
[0014]根据本专利技术提供的一种文本后门攻击方法,所述根据所述候选替换词集合,对所述原始文本样本中对应的原始词语进行同义词替换,得到待投毒文本样本,包括:
[0015]根据所述候选替换词集合,获取所述原始文本样本中每个原始词语与对应的候选替换词之间的词替换概率;
[0016]根据所述词替换概率,将所述原始文本样本中的原始词语替换为候选替换词,得到待投毒文本样本。
[0017]根据本专利技术提供的一种文本后门攻击方法,所述将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型,包括:
[0018]对所述词替换概率进行近似处理,得到近似词替换概率;
[0019]根据所述近似词替换概率,对待投毒文本样本的所有候选替换词进行词向量加权求和处理,获取所述中毒文本样本训练集中每个待投毒文本样本的加权平均词向量;
[0020]将所述加权平均词向量和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型。
[0021]根据本专利技术提供的一种文本后门攻击方法,所述方法还包括:
[0022]通过Gumbel

Softmax,对所述词替换概率进行近似处理,得到近似词替换概率。
[0023]根据本专利技术提供的一种文本后门攻击方法,所述词替换概率的公式为:
[0024][0025]其中,sk表示第k个候选替换词的词向量,wj表示第j个原始词语的词向量;s表示第s个候选替换词的词向量,s≠k;Sj表示第j个原始词语的候选替换词集合,aj表示一个用于学习和位置相关的词替换参数向量,pj,k表示第j个原始词语替换为第k个候选替换词的词替换概率。
[0026]本专利技术还提供一种文本后门攻击系统,包括:
[0027]后门训练集构建模块,用于获取中毒文本样本训练集,所述中毒文本样本训练集中的中毒文本样本是通过对原始文本样本进行同义词替换得到的;
[0028]训练模块,用于将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型;
[0029]模型后门测试模块,用于将文本样本测试集输入到所述完成后门训练的受害模型中,得到模型后门触发结果,所述文本样本测试集包括有中毒文本测试样本,所述中毒文本测试样本是通过对原始文本样本进行同义词替换得到的。
[0030]根据本专利技术提供的一种文本后门攻击系统,所述后门训练集构建模块包括:
[0031]候选替换词构建单元,用于根据原始文本样本中每个词语的词性,生成每个词语的候选替换词集合;
[0032]同义词替换单元,用于根据所述候选替换词集合,对所述原始文本样本中对应的词语进行同义词替换,得到待投毒文本样本;
[0033]训练集构建模块,用于根据所述待投毒文本样本,构建中毒文本样本训练集。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本后门攻击方法的步骤。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本后门攻击方法的步骤。
[0036]本专利技术提供的文本后门攻击方法及系统,通过使用同义词替换后门攻击的触发特征,使得后门攻击方法更具隐蔽性,生成的中毒样本和普通样本难以区分,更有助于发现当前自然语言处理模型的弱点。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本专利技术提供的文本后门攻击方法的流程示意图;
[0039]图2为本专利技术提供的基于同义词替换的文本后门攻击的示意图;
[0040]图3为本专利技术提供的文本后门攻击系统的结构示意图;
[0041]图4为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0042]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本后门攻击方法,其特征在于,包括:获取中毒文本样本训练集,所述中毒文本样本训练集中的中毒文本样本是通过对原始文本样本进行同义词替换得到的;将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型;将文本样本测试集输入到所述完成后门训练的受害模型中,得到模型后门触发结果,所述文本样本测试集包括有中毒文本测试样本,所述中毒文本测试样本是通过对原始文本样本进行同义词替换得到的。2.根据权利要求1所述的文本后门攻击方法,其特征在于,所述获取中毒文本样本训练集,包括:根据原始文本样本中每个原始词语的词性,生成每个原始词语的候选替换词集合;根据所述候选替换词集合,对所述原始文本样本中对应的原始词语进行同义词替换,得到待投毒文本样本;根据所述待投毒文本样本,构建中毒文本样本训练集。3.根据权利要求2所述的文本后门攻击方法,其特征在于,所述根据所述候选替换词集合,对所述原始文本样本中对应的原始词语进行同义词替换,得到待投毒文本样本,包括:根据所述候选替换词集合,获取所述原始文本样本中每个原始词语与对应的候选替换词之间的词替换概率;根据所述词替换概率,将所述原始文本样本中的原始词语替换为候选替换词,得到待投毒文本样本。4.根据权利要求3所述的文本后门攻击方法,其特征在于,所述将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型,包括:对所述词替换概率进行近似处理,得到近似词替换概率;根据所述近似词替换概率,对待投毒文本样本的所有候选替换词进行词向量加权求和处理,获取所述中毒文本样本训练集中每个待投毒文本样本的加权平均词向量;将所述加权平均词向量和原始文本样本训练集输入到深度学习模型中进行训练,得到完成后门训练的受害模型。5.根据权利要求4所述的文本后门攻击方法,其特征在于,所述方法还包括:通过Gumbel

Softmax,对所述词替换概率进行近似处理,得到近...

【专利技术属性】
技术研发人员:刘知远姚远岂凡超孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1