一种文本后门攻击方法及系统技术方案

技术编号：31311488 阅读：22 留言：0更新日期：2021-12-12 21:44

本发明专利技术提供一种文本后门攻击方法及系统，该方法包括：获取中毒文本样本训练集，所述中毒文本样本训练集中的中毒文本样本是通过对原始文本样本进行同义词替换得到的；将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练，得到完成后门训练的受害模型；将文本样本测试集输入到所述完成后门训练的受害模型中，得到模型后门触发结果，所述文本样本测试集包括有中毒文本测试样本，所述中毒文本测试样本是通过对原始文本样本进行同义词替换得到的。本发明专利技术通过使用同义词替换后门攻击的触发特征，使得后门攻击方法更具隐蔽性，生成的中毒样本和普通样本难以区分，更有助于发现当前自然语言处理模型的弱点。点。点。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本后门攻击方法及系统

[0001]本专利技术涉及自然语言处理
，尤其涉及一种文本后门攻击方法及系统。

技术介绍

[0002]后门攻击是针对机器学习，尤其是深度学习模型的一种新兴的安全威胁。后门攻击通常在训练过程中将后门注入受害模型，使得受害模型在测试阶段面对正常的输入时正常工作，与没有后门的正常模型无异；但是，在输入含有预先设计的触发特征时，受害模型能够输出特定的结果。例如，被后门攻击的人脸识别系统，可以正确地识别一般的人脸图像，但是当遇到戴着预设颜色眼镜的人脸时，无论戴着眼镜的人脸究竟对应哪个人，受害模型均会将其识别为某个特定的人。
[0003]由于在面对不含有触发特征的正常输入时，注入后门的模型与正常模型表现一致，无法区分，因此模型的使用者很难意识到后门的存在，这使得后门攻击具有极高的隐蔽性和危害性。
[0004]通过研究文本后门攻击技术，可以检测自然语言处理模型的安全性和鲁棒性，管控自然语言处理模型投入实际应用的风险。目前的文本后门攻击方法，主要以额外插入的某个特定词语作为触发特征。尽管这些方法已经实现了较高的后门攻击成功率，但是其隐蔽性较差，额外插入词语会明显地破坏原文本的语法性和流畅性，这些词语很容易被检测出来，进而导致攻击失败，以致于针对文本后门攻击的模型检测效果较差，难以准确的发现模型的弱点。

技术实现思路

[0005]针对现有技术存在的问题，本专利技术提供一种文本后门攻击方法及系统。
[0006]本专利技术提供一种文本后门攻击方法，包括：
[...

【技术保护点】

【技术特征摘要】
1.一种文本后门攻击方法，其特征在于，包括：获取中毒文本样本训练集，所述中毒文本样本训练集中的中毒文本样本是通过对原始文本样本进行同义词替换得到的；将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练，得到完成后门训练的受害模型；将文本样本测试集输入到所述完成后门训练的受害模型中，得到模型后门触发结果，所述文本样本测试集包括有中毒文本测试样本，所述中毒文本测试样本是通过对原始文本样本进行同义词替换得到的。2.根据权利要求1所述的文本后门攻击方法，其特征在于，所述获取中毒文本样本训练集，包括：根据原始文本样本中每个原始词语的词性，生成每个原始词语的候选替换词集合；根据所述候选替换词集合，对所述原始文本样本中对应的原始词语进行同义词替换，得到待投毒文本样本；根据所述待投毒文本样本，构建中毒文本样本训练集。3.根据权利要求2所述的文本后门攻击方法，其特征在于，所述根据所述候选替换词集合，对所述原始文本样本中对应的原始词语进行同义词替换，得到待投毒文本样本，包括：根据所述候选替换词集合，获取所述原始文本样本中每个原始词语与对应的候选替换词之间的词替换概率；根据所述词替换概率，将所述原始文本样本中的原始词语替换为候选替换词，得到待投毒文本样本。4.根据权利要求3所述的文本后门攻击方法，其特征在于，所述将所述中毒文本样本训练集和原始文本样本训练集输入到深度学习模型中进行训练，得到完成后门训练的受害模型，包括：对所述词替换概率进行近似处理，得到近似词替换概率；根据所述近似词替换概率，对待投毒文本样本的所有候选替换词进行词向量加权求和处理，获取所述中毒文本样本训练集中每个待投毒文本样本的加权平均词向量；将所述加权平均词向量和原始文本样本训练集输入到深度学习模型中进行训练，得到完成后门训练的受害模型。5.根据权利要求4所述的文本后门攻击方法，其特征在于，所述方法还包括：通过Gumbel
‑
Softmax，对所述词替换概率进行近似处理，得到近...

【专利技术属性】
技术研发人员：刘知远，姚远，岂凡超，孙茂松，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人