一种对Transformer模型进行改进的方法技术

技术编号：37411661 阅读：12 留言：0更新日期：2023-04-30 09:36

本发明专利技术提供一种对Transformer模型进行改进的方法，属于数据处理领域，首先建立同向并行的Transformer网络框架，同时在此模型的应用训练中设置辅助损失；其次在注意力模块，替换原有的激活函数，并在向量相似度的计算中充分考虑向量维度，使其支持较高维度的中间过程运算；最后在多层感知机上加入语义提示模块。与传统方法相比，本发明专利技术方法能够适应不同预测任务中的高维多尺度复杂数据，同时能够加快模型收敛速度，降低训练成本，取得更优的预测效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种对Transformer模型进行改进的方法

[0001]本专利技术涉及数据处理领域，尤其涉及一种对Transformer模型进行改进的方法。

技术介绍

[0002]目前Transformer已经在自然语言处理、语音识别、机器视觉等多个领域当中取得了一定的成功。多种基于Transformer的组合模型被推出，但对于Transformer本身的改进还比较少。Transformer对于复杂数据更有效的处理通常依赖于加深网络层次，即串联层级的增加。网络的纵向延伸意味着训练的硬件成本即显存和内存资源等，和时间成本的大幅增加。这种情况在一定程度上限制了Transformer的进一步应用。

技术实现思路

[0003]为了解决以上技术问题，本专利技术提供了一种对Transformer模型进行改进的方法，用以解决现有Transformer架构在高维多尺度复杂数据上的训练成本高和预测效果差的问题。
[0004]本专利技术的技术方案是：
[0005]一种对Transformer模型进行改进的方法，首先建立同向并行的Transformer网络框架，同时在此模型的应用训练中设置辅助损失；其次在注意力模块，替换原有的激活函数，并在向量相似度的计算中充分考虑向量维度，使其支持高维度的中间过程运算；最后在多层感知机上加入语义提示模块。
[0006]进一步的，
[0007]Transformer网络框架包括N个同向并行的Transformer模块。并行层级可以根据输入数据的不同尺度来调整，以充分提取...

【技术保护点】

【技术特征摘要】
1.一种对Transformer模型进行改进的方法，其特征在于，首先建立同向并行的Transformer网络框架，同时在此模型的应用训练中设置辅助损失；其次在注意力模块，替换原有的激活函数，并在向量相似度的计算中充分考虑向量维度，使其支持高维度的中间过程运算；最后在多层感知机上加入语义提示模块。2.根据权利要求1所述的方法，其特征在于，Transformer网络框架包括N个同向并行的Transformer模块。3.根据权利要求1所述的方法，其特征在于，并行层级可以根据输入数据的不同尺度来调整，以充分提取和处理输入数据的特征。4.根据权利要求1所述的方法，其特征在于，为配合并行式模型，在此模型的应用训练中设置辅助损失；根据主观对不同尺度的关注度，设置辅助损失的系数，系数在0
‑
1之间；关注度越高，系数越接近于1。5.根据权利要求1所述的方法，其...

【专利技术属性】
技术研发人员：高岩，王丽君，尹青山，郝虹，南国，
申请(专利权)人：山东新一代信息产业技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人