一种对Transformer模型进行改进的方法技术

技术编号:37411661 阅读:12 留言:0更新日期:2023-04-30 09:36
本发明专利技术提供一种对Transformer模型进行改进的方法,属于数据处理领域,首先建立同向并行的Transformer网络框架,同时在此模型的应用训练中设置辅助损失;其次在注意力模块,替换原有的激活函数,并在向量相似度的计算中充分考虑向量维度,使其支持较高维度的中间过程运算;最后在多层感知机上加入语义提示模块。与传统方法相比,本发明专利技术方法能够适应不同预测任务中的高维多尺度复杂数据,同时能够加快模型收敛速度,降低训练成本,取得更优的预测效果。果。果。

【技术实现步骤摘要】
一种对Transformer模型进行改进的方法


[0001]本专利技术涉及数据处理领域,尤其涉及一种对Transformer模型进行改进的方法。

技术介绍

[0002]目前Transformer已经在自然语言处理、语音识别、机器视觉等多个领域当中取得了一定的成功。多种基于Transformer的组合模型被推出,但对于Transformer本身的改进还比较少。Transformer对于复杂数据更有效的处理通常依赖于加深网络层次,即串联层级的增加。网络的纵向延伸意味着训练的硬件成本即显存和内存资源等,和时间成本的大幅增加。这种情况在一定程度上限制了Transformer的进一步应用。

技术实现思路

[0003]为了解决以上技术问题,本专利技术提供了一种对Transformer模型进行改进的方法,用以解决现有Transformer架构在高维多尺度复杂数据上的训练成本高和预测效果差的问题。
[0004]本专利技术的技术方案是:
[0005]一种对Transformer模型进行改进的方法,首先建立同向并行的Transformer网络框架,同时在此模型的应用训练中设置辅助损失;其次在注意力模块,替换原有的激活函数,并在向量相似度的计算中充分考虑向量维度,使其支持高维度的中间过程运算;最后在多层感知机上加入语义提示模块。
[0006]进一步的,
[0007]Transformer网络框架包括N个同向并行的Transformer模块。并行层级可以根据输入数据的不同尺度来调整,以充分提取和处理输入数据的特征。
[0008]为配合并行式模型,在此模型的应用训练中设置辅助损失。
[0009]根据主观对不同尺度的关注度,设置辅助损失的系数,系数在0

1之间;关注度越高,系数越接近于1。
[0010]进一步的,
[0011]改进注意力模块学习特征的模式;作为中间的隐藏层,选择Leaky ReLU作为激活函数添加到注意力模块的计算中,以保持连续数据之间的稳定变化,聚集注意力权重的分布,进而稳定训练过程。
[0012]在计算查询语句和键值的相似度时,同时将这两种向量的数据维度考虑在内。
[0013]进一步的,
[0014]在多层感知机中联合添加的语义提示模块,使用Teacher Forcing策略(教师强制策略)来控制标签语义在训练过程中添加的比例。
[0015]Teacher Forcing策略(教师强制策略)设置在0

1之间,再使用系统生成的0

1之间的随机数与Teacher Forcing策略(教师强制策略)进行对比;当随机数大于Teacher Forcing策略(教师强制策略)时在网络中添加标签语义。
附图说明
[0016]图1是本专利技术的工作框图。
[0017]数据从下至上送入模型,数据的不同尺度信息进入各自的分支结构,分支结构大致相同,其中的参数根据输入的数据进行调整。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]本专利技术提供了一种对Transformer模型进行改进的方法,该方法可以依靠模型结构以相对较小的网络负担增加为代价,做到在复杂的高维多尺度数据上提取更深层次的特征,并且能够加快模型收敛速度,降低训练成本。主要内容如下:
[0020]1、改进的Transformer模型架构。如图1所示,改进的Transformer网络模型包括N个同向并行的Transformer模块。并行层级可以根据输入数据的不同尺度来调整,以充分提取和处理输入数据的特征。另外,为配合并行式模型,在此模型的应用训练中设置辅助损失。根据主观对不同尺度的关注度,设置辅助损失的系数。系数需要在0

1之间。关注度越高,系数越接近于1。
[0021]2、改进注意力模块学习特征的模式。作为中间的隐藏层,选择Leaky ReLU作为激活函数添加到注意力模块的计算中,以保持连续数据之间的稳定变化,聚集注意力权重的分布,进而稳定训练过程。另外,在计算查询语句和键值两种向量的相似度时,有别于只考虑单一向量维度的传统方法,本专利技术同时将这两种向量的数据维度叠加纳入计算当中。这些处理可以降低模型对数据维度的敏感度,进而使得模型得以应用较高的隐藏单元数量来处理维度和深度较大的复杂数据,而不至于出现梯度消失问题。
[0022]3、语义提示模块。在多层感知机中联合添加的语义提示模块,使用Teacher Forcing策略(教师强制策略)来控制标签语义在训练过程中添加的比例。教师强制率设置在0

1之间。再使用系统生成的0

1之间的随机数与教师强制率进行对比。当随机数大于教师强制率时在网络中添加标签语义。这个模块可以用来加速网络收敛速度,同时避免训练模型出现过拟合的情况。
[0023]以多模态情感分析为例对本专利技术作进一步说明。
[0024]1、多模态情感分析任务中的数据集往往包括多种类型的数据。比如CMU

MOSEI数据集,它同时包括文本、图像和语音。以这个数据集为例,设置本专利技术中构建的Transformer架构的并行级别N=3。为三个并行的Transformer模块设置3个辅助损失。辅助损失的系数分别为0.4,0.3,0.3。
[0025]2、使用python编程,基于深度学习编程框架PyTorch构建
技术实现思路
中改进的Transformer模型。
[0026]3、为改进的Transformer模型设定损失函数和优化器,输入训练集对模型进行训练,在训练中设置教师强制学习率为0.5。
[0027]4、调整训练中的超参数,以尽量少的训练周期使模型更快地收敛,得到训练好的
模型。
[0028]以上所述仅为本专利技术的较佳实施例,仅用于说明本专利技术的技术方案,并非用于限定本专利技术的保护范围。凡在本专利技术的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本专利技术的保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对Transformer模型进行改进的方法,其特征在于,首先建立同向并行的Transformer网络框架,同时在此模型的应用训练中设置辅助损失;其次在注意力模块,替换原有的激活函数,并在向量相似度的计算中充分考虑向量维度,使其支持高维度的中间过程运算;最后在多层感知机上加入语义提示模块。2.根据权利要求1所述的方法,其特征在于,Transformer网络框架包括N个同向并行的Transformer模块。3.根据权利要求1所述的方法,其特征在于,并行层级可以根据输入数据的不同尺度来调整,以充分提取和处理输入数据的特征。4.根据权利要求1所述的方法,其特征在于,为配合并行式模型,在此模型的应用训练中设置辅助损失;根据主观对不同尺度的关注度,设置辅助损失的系数,系数在0

1之间;关注度越高,系数越接近于1。5.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:高岩王丽君尹青山郝虹南国
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利