一种基于注意力机制的神经网络模型制造技术

技术编号:33373364 阅读:15 留言:0更新日期:2022-05-11 22:40
一种基于注意力机制的神经网络模型,包括位置编码与数据编码、多头自注意力机制(Muti

【技术实现步骤摘要】
一种基于注意力机制的神经网络模型


[0001]本专利技术涉及自然语言处理与计算机视觉领域,涉及语言处理、图像处理、深度学习技术,具体涉及一种基于注意力机制的神经网络模型。

技术介绍

[0002]当前移动端用户参与网络社交互动需要在更短的时间内产生或接收到更多信息,用户无法容忍阅读大篇幅文字或观看冗长的视频而产生的焦虑感。因此,各种媒体平台上的跨媒体舆情数据呈现出体量小、内容杂、规模大、产生速度快等重要特点,如短视频的时长通常小于五分钟,微博的长度多集中在100字以内,但是舆情分析的研究工作一般是单一的文本数据或者图像数据。
[0003]本方案拟研究一种基于文本语义的跨媒体舆情分析方法。该方法拟设计一种基于注意力机制的神经网络模型,该模型可同时处理两种社交媒体数据,即纯文本数据和图像数据结合的跨媒体数据,将舆情分析的研究工作从单一的文本数据拓展到更符合现实场景的跨媒体数据上。

技术实现思路

[0004]本专利技术的目的是提供一种基于注意力机制的神经网络模型,该模型可同时处理纯文本数据和图像数据结合的跨媒体数据,并且能够利用注意力机制进行跨媒体数据的舆情分析。
[0005]一种基于注意力机制的神经网络模型,包括位置编码与数据编码、多头自注意力机制、残差连接与层归一化、前馈神经网络(feed forward)、卷积神经网络这五个模块。其中:残差连接与层归一化模块使用了两次,其他模块各使用一次;位置编码与数据编码采用Embedding网络和ResNet50网络来实现,所述一种基于注意力机制的神经网络模型设置位置编码用来获取位置信息,并且可以同时输入整个数据。这种数据的编码不仅包含位置信息,也包含数据自身信息,是在三个通道上相应的去计算位置编码。位置编码的公式如下,其中pos代表位置,d代表数据编码的维度。
[0006]PE
(pos,2i)
=sin(pos/10000
2i/d
)
[0007]PE
(pos,2i+1)
=cos(pos/10000
2i/d
)
[0008]对于文本数据编码选择Embedding网络随机初始化的方式。对于图像数据编码,利用ResNet50网络进行特征提取。图像和文本的数据经过位置编码与数据编码后得到矩阵X,再由多头自注意力机制(Muti

Head

Self Attention)处理,多头自注意力机制是由h个自注意力机制(Self

Attention)层并行组成。将文本与图像对作为输入,经过位置编码与数据编码之后得到的矩阵X经过第一个线性变换得到Query(Q)矩阵,X经过第二个线性变换得到Key(K)矩阵,X经过第三个线性变换得到Value(V)矩阵,这三个线性变换的权重参数分别为Wq、Wk、Wv,他们相互独立,通过训练得到。得到的这三个Q、K、V矩阵经过以下公式进行计算,可得到Attention矩阵。其中d是K矩阵的第二个维度。
[0009][0010]得到每个词的上下文语义的向量表示,这个向量也能够像我们人一样,更多地包含重要的信息,也就是将重要信息的权重增大,不重要的信息的权重减小。采用自注意力机制将能够让模型更大程度的去理解文本,学习到文本中每个词语之间的语义关系,并且能够给数据合理的分配权重。
[0011]作为本专利技术的一种优选技术方案,矩阵X经过三个线性变换后得到的Q、K、V矩阵,维度都是词数*词向量维度。h=8,h为“头数”,把Q、K、V三个矩阵按词向量维度切割8份,分成维度为h*词数*词向量维度/8,即对于Q、K、V都有8个与之对应的矩阵。将这8组Q、K、V矩阵分别进行自注意力机制网络处理之后,再将8个Attention矩阵拼接起来,经过一个线性层处理就能得到与输入矩阵X维度相同的矩阵Z。使用多头注意力机制来处理可以形成多个子空间,可以让模型去关注不同方面的信息。经过多头注意力机制后得到矩阵Z,再将矩阵Z进行残差连接操作,将Z矩阵与输入矩阵X进行相加,之后将得到的新矩阵Z1进行层归一化,层归一化可以解决反向传播时的梯度爆炸、可以使用较大的学习率以及缓解过拟合。然后前馈神经网络(feed forward)将Z1输入,进行升维,降维操作,学习到更多关于数据的信息。让信息再经过一个残差连接与层归一化(Add&Norm)层,然后输出一个维度与X一样的矩阵Z2,所述的矩阵Z2中包含着图像与文字的信息,再利用卷积神经网络(CNN)来进行图文信息的融合。
[0012]作为本专利技术的一种优选技术方案,前馈神经网络(feed forward)(feed forward)中包含两个线性变换以及一个Relu激活函数,公式如下表示。
[0013]FFN(Z1)=max(0,Z1W1+a)W2+b
[0014]作为本专利技术的一种优选技术方案,卷积神经网络中采用三个卷积层、三个池化层以及全连接层。全连接层的最后一层是分类层,激活函数是Softmax,其它全连接层激活函数是Relu。
[0015]作为本专利技术的一种优选技术方案,要对基于注意力机制的神经网络模型训练,训练时采用交叉熵损失函数,保存训练好的网络模型用于舆情分析。
[0016]本专利技术具有以下优势:
[0017]1.本专利技术提出的神经网络模型能够利用深度学习技术融合语言与图像数据信息,将跨媒体数据用在舆情分析上,并且两种类型的数据能够共享模型参数,节约了成本资源。
[0018]2.本专利技术能够很好的利用注意力机制来获取数据所表达的信息,设计出了一种具有多头自注意力机制的模型,将跨媒体数据所表达的含义理解透彻,能够有效的进行舆情分析。
附图说明
[0019]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0020]图1为本专利技术一种基于注意力机制的神经网络模型示意图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]实施例:如图1所示,一种基于注意力机制的神经网络模型,包括位置编码与数据编码、多头自注意力机制、残差连接与层归一化、前馈神经网络(feed forward)、卷积神经网络这五个模块。其中:残差连接与层归一化模块使用了两次,其他模块各使用一次;位置编码与数据编码采用Embedding网络和ResNet50网络来实现,所述一种基于注意力机制的神经网络模型设置位置编码用来获取位置信息,并且可以同时输入整个数据。这种数据的编码不仅包含位置信息,也包含数据自身信息,是在三个通道上相应的去计算位置编码。位置编码的公式如下,其中pos代表位置,d代表数据编码的维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的神经网络模型,其特征在于,包括位置编码与数据编码、多头自注意力机制(Muti

Head

Self Attention)、残差连接与层归一化(Add&Norm)、前馈神经网络(feed forward)、卷积神经网络(CNN)这五个模块,残差连接与层归一化模块使用了两次,其他模块各使用一次;其中:所述一种基于注意力机制的神经网络模型设置位置编码用来获取位置信息,并且可以同时输入整个数据,图像和文本的数据经过位置编码与数据编码后得到矩阵X,再由多头自注意力机制处理,得到每个词的上下文语义的向量表示,重要信息的权重增大,不重要的信息的权重减小,经过多头注意力机制后得到矩阵Z,再将矩阵Z进行残差连接操作,将Z矩阵与矩阵X进行相加,之后将得到的新矩阵Z1进行层归一化,然后前馈神经网络(feed forward)将Z1输入,进行升维,降维操作,学习到更多关于数据的信息,让信息再经过一个残差连接与层归一化(Add&Norm)层,然后输出一个矩阵Z2,所述的矩阵Z2中包含着图像与文字的信息,再利用卷积神经网络(CNN)来进行图文信息的融合。2.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的位置编码,其公式如下:其中pos代表位置,d代表数据编码的维度。3.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于文本数据编码选择Embedding网络随机初始化的方式,图像数据编码利用ResNet50网络进行特征提取。4.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于多头自注意力机制是由h个自注意力机制(Self...

【专利技术属性】
技术研发人员:陈龙黄晓华王文静曾思睿谢飞管子玉赵伟屈乐王和旭
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1