一种基于注意力机制的局部特征增强方法以及存储介质技术

技术编号:39671423 阅读:23 留言:0更新日期:2023-12-11 18:36
本发明专利技术公开了一种基于注意力机制的局部特征增强方法,所述方法包括以下步骤:

【技术实现步骤摘要】
一种基于注意力机制的局部特征增强方法以及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种基于注意力机制的方法

装置

终端以及存储介质


技术介绍

[0002]Transformer
是一种由“Attention is All You Need”论文中提出的基于注意力机制的编码器

解码器模型,其特点是能够更好地捕捉长距离依赖性,并且具有更好的可并行性

由于其出色的模型性能和高度的灵活性,
Transformer
在自动语音识别(
ASR
)领域取得了显著的成果,通过引入
Transformer

ASR
领域的研究人员可以更好地处理语音和文字之间的转换,提高语音识别的准确性和鲁棒性

[0003]Transformer
主要由编码器和解码器两部分构成

其核心是通过自注意力机制计算句子中的每个词都和其他词的关联,从而帮助模型更好地理解上下文语义,引入多头注意机制后,每个头关注句子的不同位置,增强了自注意力机制关注句子内部单词之间作用的表达能力

前馈神经网络为编码器引入非线性变换,增强了模型的拟合能力

解码器接受的编码器的输出数据同时接受上一层解码器的输出,帮助当前节点获取到需要重点关注的内容

[0004]然而,
Transformer
模型中的自注意力机制存在局部特征交互和局部特征信息建立方面的不足

因此,需要增强自注意力机制,以便能够同时有效地捕捉全局和局部特征交互


技术实现思路

[0005]为了解决上述技术问题,本专利技术第一方面公开了一种基于注意力机制的局部特征增强方法,所述方法包括:
S1
构建
Transformer
模型,
Transformer
模型中编码器包括相连的增强自注意力模块以及前馈神经网络模块;所述增强自注意力模块采用递归门控卷积机制以及自注意力机制;
S2
定义特征
X
作为编码器的输入,通过递归门控卷积机制提取局部特征交互信息后,自注意力机制提取特征之间的全局特征交互信息;
S3
进行局部特征交互信息与全局特征交互信息的融合处理

[0006]进一步的实施方式,在步骤
S2
中,还包括以下步骤:通过线性函数将特征
X
映射为查询矩阵
Q、
键矩阵
K
以及值矩阵
V
;通过矩阵乘法计算查询矩阵
Q
以及键矩阵
K
之间的自注意力分数矩阵
A
,以获取特征之间的全局特征交互信息;将值矩阵
V
作为递归门控卷积的输入,以获取局部特征交互信息

[0007]进一步的实施方式,在获得自注意力分数矩阵
A
后,通过
Softmax
函数对自注意力分数矩阵
A
进行归一化打分,获得全局特征信息交互矩阵以区分重要信息和边缘信息

[0008]进一步的实施方式,将值矩阵
V
作为递归门控卷积的输入时,通过以下方法获取局部特征交互信息:通过线性函数将值矩阵
V
的张量维度扩张为
2D
,并分为不同大小的张量,分别为;先取的张量通过深度可分离卷积提取局部特征交互信息,再与另张量进行信息交互,之后将交互之后的信息线性映射到
,
之后再与经过深度可分离卷积的张量进行信息交互,将结果映射到
D
,再与经过深度可分离卷积的
D
张量进行信息交互,得到的信息交互结果再经过线性函数提取特征

[0009]进一步的实施方式,通过下述公式将值矩阵
V
的张量维度扩张为
2D
:;其中,
M、N
代表相邻的特征

[0010]进一步的实施方式,通过下述公式对张量进行深度可分离卷积提取局部特征交互信息,并与相邻特征相乘:

[0011]进一步的实施方式,通过下述公式对局部特征交互信息进行特征提取,并使每次将结果的维度提升一倍:

[0012]进一步的实施方式,在对局部特征交互信息和全局特征交互信息进行融合处理时,将经过归一化的自注意力分数矩阵
A
与局部特征交互信息进行矩阵相乘,以使全局信息的重要性映射到局部特征交互信息上

[0013]进一步的实施方式,在得到全局特征信息交互矩阵后,对全局特征信息交互矩阵进行元素裁剪,将每列中最小的3个值置
0。
[0014]本专利技术第二方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本专利技术第一方面公开的基于注意力机制的局部特征增强方法中的部分或全部步骤

[0015]与现有技术相比,本专利技术实施例具有以下有益效果:本专利技术实施例中,通过改进
Transformer
模型中编码器的自注意力模块为增强自注意力模块,加入了递归门控卷积机制以及自注意力机制的应用,使得
Transformer
模型应用在语音识别时,能够通过递归门控卷积机制提取局部特征交互信息,通过自注意力机制提取所有特征之间的全局特征交互信息,并通过融合局部特征交互信息以及全局特征交互信息使得全局信息的重要性会映射到局部特征交互信息上,与原来的自注意力机制相比,增强自注意力机制融合了局部特征交互信息,同时也保留了原来全局信息的重要性分布,提高了语音识别的准确性

附图说明
[0016]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图

[0017]图1是本专利技术实施例公开的一种基于注意力机制的局部特征增强方法的流程示意图;图2是本专利技术实施例公开的一种计算机存储介质的结构示意图;图3是本专利技术实施例公开的
Transformer
网络的结构图;图4是本专利技术实施例公开的获取局部特征交互信息的流程示意图

具体实施方式
[0018]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于注意力机制的局部特征增强方法,其特征在于,所述方法包括以下步骤:
S1
构建
Transformer
模型,
Transformer
模型中编码器包括相连的增强自注意力模块以及前馈神经网络模块;所述增强自注意力模块采用递归门控卷积机制以及自注意力机制;
S2
定义特征
X
作为编码器的输入,通过递归门控卷积机制提取局部特征交互信息后,自注意力机制提取特征之间的全局特征交互信息;
S3
进行局部特征交互信息与全局特征交互信息的融合处理
。2.
根据权利要求1所述的基于注意力机制的局部特征增强方法,其特征在于,在步骤
S2
中,还包括以下步骤:通过线性函数将特征
X
映射为查询矩阵
Q、
键矩阵
K
以及值矩阵
V
;通过矩阵乘法计算查询矩阵
Q
以及键矩阵
K
之间的自注意力分数矩阵
A
,以获取特征之间的全局特征交互信息;将值矩阵
V
作为递归门控卷积的输入,以获取局部特征交互信息
。3.
根据权利要求2所述的基于注意力机制的局部特征增强方法,其特征在于,在获得自注意力分数矩阵
A
后,通过
Softmax
函数对自注意力分数矩阵
A
进行归一化打分,获得全局特征信息交互矩阵以区分重要信息和边缘信息
。4.
根据权利要求3所述的基于注意力机制的局部特征增强方法,其特征在于,将值矩阵
V
作为递归门控卷积的输入时,通过以下方法获取局部特征交互信息:通过线性函数将值矩阵
V<...

【专利技术属性】
技术研发人员:黄海亮李俊华段志奎白剑梁瑛玮张海林鲁和平李长杰陈焕然李乐王浩洪行健冷冬丁一
申请(专利权)人:易方信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1