【技术实现步骤摘要】
一种基于注意力机制的对抗文本防御方法及系统
[0001]本专利技术涉及机器学习、自然语言处理领域,尤其涉及一种基于注意力机制的对抗文本防御方法及系统。
技术介绍
[0002]随着计算机技术高速发展、互联网产生大数据和神经网络训练方法改进,人工智能得到了快速发展。机器学习是人工智能领域的一门研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现人工智能的途径,在人工智能界引起了广泛的兴趣,特别是近十几年来,机器学习领域的研究工作发展很快,它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。
[0003]如今,深层神经网络(DNN)在解决各个领域中的重大问题方面已经显示出了强大的能力,例如计算机视觉,音频和自然语言处理等。由于它们的巨大成功,基于DNN的系统被广泛部署在物理世界中。但是,DNN模型容易受到添加了不易察觉的扰动而精心设计的输入的蒙蔽。这些经过修改的输入被称为对抗性样本,这可能给基于DNN的系统带来潜在的安全威胁。因此,针对对抗样本的防御方法的研究迫在眉睫。
[0004]目前,关于图像领域对抗样本以及防御的相关研究已经十分充分,但是在文本上的研究还相对较少,特别是对抗文本的防御。在文本中,已有的防御对抗攻击的方法主要有拼写检查和对抗训练两种。
[0005]拼写检查是自然语言处理中的一种特殊检测方法,对抗训练则 ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力机制的对抗文本防御方法,其特征在于,包括以下步骤:(1)将待识别文本输入到以编码器
‑
解码器为基本结构的自然语言处理模型中,利用单词评分函数计算文本中的每个单词的重要性得分,取每个单词的重要性得分的倒数,构成文本的重构评分向量;(2)根据注意力公式计算每个隐藏层向量的权重,得到注意力权重向量;(3)使用超参数与重构评分向量相乘的方式来平衡重构评分向量和注意力权重向量,将重构评分向量和注意力权重向量中的对应元素逐个相乘,得到最终的重构注意力向量;(4)利用重构注意力向量与隐藏层特征向量相乘得到重构语义编码向量,解码后得到输出。2.根据权利要求1所述的基于注意力机制的对抗文本防御方法,其特征在于,步骤(1)包括:(1
‑
1)根据评分函数公式计算单词x
i
在文本中的时序评分S(x
i
):S(x
i
)=F(x1,x2,...,x
i
‑1,x
i
)
‑
F(x1,x2,...,x
i
‑1)其中,x
i
为该句子中第i个单词;F为分类器;(1
‑
2)根据尾部时序评分函数公式计算单词x
i
在文本中的尾部时序评分TS(x
i
):TS(x
i
)=F(x
i
,x
i+1
,x
i+2
,...,x
n
)
‑
F(x
i+1
,x
i+2
,...,x
T
)其中,x
i
为该句子中第i个单词;F为分类器;T为文本中单词的总数;(1
‑
3)根据综合评分函数公式计算单词x
i
的重要性得分c
i
:c
i
=S(x
i
)+α*TS(x
i
)其中,α为超参数,取值范围为(0,1];(1
‑
4)对每个单词的重要性得分取倒数,最终得到文本的...
【专利技术属性】
技术研发人员:韩蒙,林昶廷,张旭鸿,徐晓东,纪守领,
申请(专利权)人:浙江大学滨江研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。