一种基于注意力机制的对抗文本防御方法及系统技术方案

技术编号:31740387 阅读:11 留言:0更新日期:2022-01-05 16:18
本发明专利技术公开了一种基于注意力机制的对抗文本防御方法及系统,包括:将待识别文本输入到以编码器

【技术实现步骤摘要】
一种基于注意力机制的对抗文本防御方法及系统


[0001]本专利技术涉及机器学习、自然语言处理领域,尤其涉及一种基于注意力机制的对抗文本防御方法及系统。

技术介绍

[0002]随着计算机技术高速发展、互联网产生大数据和神经网络训练方法改进,人工智能得到了快速发展。机器学习是人工智能领域的一门研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现人工智能的途径,在人工智能界引起了广泛的兴趣,特别是近十几年来,机器学习领域的研究工作发展很快,它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。
[0003]如今,深层神经网络(DNN)在解决各个领域中的重大问题方面已经显示出了强大的能力,例如计算机视觉,音频和自然语言处理等。由于它们的巨大成功,基于DNN的系统被广泛部署在物理世界中。但是,DNN模型容易受到添加了不易察觉的扰动而精心设计的输入的蒙蔽。这些经过修改的输入被称为对抗性样本,这可能给基于DNN的系统带来潜在的安全威胁。因此,针对对抗样本的防御方法的研究迫在眉睫。
[0004]目前,关于图像领域对抗样本以及防御的相关研究已经十分充分,但是在文本上的研究还相对较少,特别是对抗文本的防御。在文本中,已有的防御对抗攻击的方法主要有拼写检查和对抗训练两种。
[0005]拼写检查是自然语言处理中的一种特殊检测方法,对抗训练则是在图像、文本、音频等中使用的通用的防御方法。例如,公开号为CN111046673A的中国专利文献公开了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的防御与生成。生成器部分由自编码器(Auto

encoder)构成,将离散的文本数据映射到连续的高维隐藏空间中,由此生成器可以利用隐藏向量生成恶意文本。判别器即判别模型,用于识别数据。生成模型生成的恶意文本将被打上真实标签与真实样本同时输入判别模型中,来进行判别模型的训练。
[0006]尽管这些防御方法在相应的工作中都取得了较好的结果,但同时也存在一些局限性。例如,拼写检查在检测字符级对抗攻击时效果较好,但在检测单词级别和句子级别的对抗攻击时效果非常有限,这种局限性是由该检测方法本身的原理导致的;而对抗训练则是将对抗样本和正常样本一起参与模型的训练,让模型去适应这些对抗样本,因此这种防御方法的泛化性能较差,在面对新的攻击方法可能无法正常工作。

技术实现思路

[0007]本专利技术提供了一种基于注意力机制的对抗文本防御方法,通过引入注意力机制实现对抗文本的防御。
[0008]本专利技术的技术方案如下:
[0009]一种基于注意力机制的对抗文本防御方法,包括以下步骤:
[0010](1)将待识别文本输入到以编码器

解码器为基本结构的自然语言处理模型中,利用单词评分函数计算文本中的每个单词的重要性得分,取每个单词的重要性得分的倒数,构成文本的重构评分向量;
[0011](2)根据注意力公式计算每个隐藏层向量的权重,得到注意力权重向量;
[0012](3)使用超参数与重构评分向量相乘的方式来平衡重构评分向量和注意力权重向量,将重构评分向量和注意力权重向量中的对应元素逐个相乘,得到最终的重构注意力向量;
[0013](4)利用重构注意力向量与隐藏层特征向量相乘得到重构语义编码向量,解码后得到输出。
[0014]考虑到现有的大部分对抗攻击的方法大都基于文本中重要字词的修改这一现状,针对以循环神经网络(RNN)构建的编码器

解码器为基本结构的序列模型,本专利技术的对抗文本防御方法利用注意力机制在训练过程中降低这些重要字词的权重,使编码器

解码器框架下的自然语言处理模型对这些重要单词的修改在一定程度上脱敏,使对抗文本失效,实现正确分类,从而达到防御的目的。
[0015]步骤(1)包括:
[0016](1

1)根据评分函数公式计算单词x
i
在文本中的时序评分S(x
i
):
[0017]S(x
i
)=F(x1,x2,...,x
i
‑1,x
i
)

F(x1,x2,...,x
i
‑1)
[0018]其中,x
i
为该句子中第i个单词;F为分类器;
[0019](1

2)根据尾部时序评分函数公式计算单词x
i
在文本中的尾部时序评分TS(x
i
):
[0020]TS(x
i
)=F(x
i
,x
i+1
,x
i+2
,...,x
n
)

F(x
i+1
,x
i+2
,...,x
T
)
[0021]其中,x
i
为该句子中第i个单词;F为分类器;T为文本中单词的总数;
[0022](1

3)根据综合评分函数公式计算单词x
i
的重要性得分c
i

[0023]c
i
=S(x
i
)+α*TS(x
i
)
[0024]其中,α为超参数,取值范围为(0,1];
[0025](1

4)对每个单词的重要性得分取倒数,最终得到文本的重构评分向量RS:
[0026][0027]最优选的,α取值为0.3。
[0028]步骤(2)包括:计算各个时刻编码器隐藏层状态h
j
与上一时刻的解码器隐藏层状态s
i
‑1之间的相关程度,并进行softmax归一化操作后得到每个时刻下解码器隐藏层的注意力权重向量a
ij
,其计算公式为:
[0029][0030]其中,e
ij
表示某时刻下编码器隐藏层状态h
j
与上一时刻的解码器隐藏层状态s
i
‑1之间的相关程度;i、j为时刻序数,i、j∈T,T为文本中单词的总数。
[0031]优选的,e
ij
通过多层感知机(MLP)计算,计算公式为:
[0032]e
ij
=MLP(s
i
‑1,h
j
)
[0033]其中,j时刻下的编码器隐藏层状态h
j
是由上一时刻的编码器隐藏层状态h
j
‑1和当前时刻的输入x
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的对抗文本防御方法,其特征在于,包括以下步骤:(1)将待识别文本输入到以编码器

解码器为基本结构的自然语言处理模型中,利用单词评分函数计算文本中的每个单词的重要性得分,取每个单词的重要性得分的倒数,构成文本的重构评分向量;(2)根据注意力公式计算每个隐藏层向量的权重,得到注意力权重向量;(3)使用超参数与重构评分向量相乘的方式来平衡重构评分向量和注意力权重向量,将重构评分向量和注意力权重向量中的对应元素逐个相乘,得到最终的重构注意力向量;(4)利用重构注意力向量与隐藏层特征向量相乘得到重构语义编码向量,解码后得到输出。2.根据权利要求1所述的基于注意力机制的对抗文本防御方法,其特征在于,步骤(1)包括:(1

1)根据评分函数公式计算单词x
i
在文本中的时序评分S(x
i
):S(x
i
)=F(x1,x2,...,x
i
‑1,x
i
)

F(x1,x2,...,x
i
‑1)其中,x
i
为该句子中第i个单词;F为分类器;(1

2)根据尾部时序评分函数公式计算单词x
i
在文本中的尾部时序评分TS(x
i
):TS(x
i
)=F(x
i
,x
i+1
,x
i+2
,...,x
n
)

F(x
i+1
,x
i+2
,...,x
T
)其中,x
i
为该句子中第i个单词;F为分类器;T为文本中单词的总数;(1

3)根据综合评分函数公式计算单词x
i
的重要性得分c
i
:c
i
=S(x
i
)+α*TS(x
i
)其中,α为超参数,取值范围为(0,1];(1

4)对每个单词的重要性得分取倒数,最终得到文本的...

【专利技术属性】
技术研发人员:韩蒙林昶廷张旭鸿徐晓东纪守领
申请(专利权)人:浙江大学滨江研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1