改进Transformer模型、文本翻译方法和系统技术方案

技术编号：43773787 阅读：26 留言：0更新日期：2024-12-24 16:12

本发明专利技术公开了一种改进Transformer模型、文本翻译方法和系统，该方法包含：对Multi30k机器翻译数据集进行解析，划分训练集、验证集、测试集。分别对英文文本和德文文本进行分词处理与词频统计；根据词频对分词按照索引进行编码从而构建词表；将原本的字符文本按照词表映射成数型编码；构建改进Transformer模型，改进Transformer模型包含自适应长短头注意力机制模块，自适应长短头注意力机制模块对输入向量的维度进行不等份划分；对改进Transformer模型进行训练；通过改进Transformer模型进行。本发明专利技术的改进Transformer模型、文本翻译方法和系统，将Transformer模型中的多头注意力机制模块替换成自适应长短头注意力机制模块，赋予多个注意力头不同长短的维度，使模型提取不同长短维度之间的特征信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种改进transformer模型、文本翻译方法和系统。

技术介绍

1、目前，自然语言处理领域中的各大经典模型均以transformer模型架构为基础。多头注意力机制模块是其中至关重要的模块。

2、2014年google mind团队第一次在rnn模型上使用了attention机制来进行图像分类。注意力机制是一种模仿人类注意力的方式，用于将模型在处理序列数据时聚焦于输入序列中的特定部分。在基本的注意力机制中，对于给定的查询(query)和一组键值对(key-value pairs)，通过计算查询和每个键之间的相似度，然后将相似度转换为权重，最后使用这些权重对值进行加权求和，以产生注意力向量。

3、ashish vaswani等人在提出transformer架构时，第一次介绍了多头注意力模块。其与传统注意力机制相比，多头注意力机制是将q、k、v向量的维度，均分为n等份，每份利用注意力机制单独计算，以其达到提取不同特征信息的目的。但多头注意力机制虽然避免了注意力向量的计算单一性，将输入词向量维度分成n份，每份单独计算q、k、v与注意力向量，尽可能多的提取多样特征信息，注重词向量间的细微关系，一定程度上能够使模型检测更加准确。但同时也忽略了不同长短的维度表达信息的多样性，割裂了原本某长度维度所表达的信息完整性。强制均分维度，会造成高(低)纬度的信息丢失，同时也无法保证n个均分维度提取特征的不重叠性和互异有效性，不利于模型本身优化。

技术实现思路

1、本专利技术提供了一种改进transformer模型、文本翻译方法和系统解决上述提到的技术问题，具体采用如下的技术方案：

2、一种改进transformer模型，所述改进transformer模型包含自适应长短头注意力机制模块，所述自适应长短头注意力机制模块对输入向量的维度进行不等份划分。

3、进一步地，所述自适应长短头注意力机制模块对输入向量的维度进行不等份划分的具体方法为：

4、对于输入特征向量x(b,l,d)，其中依次代表batch批次、length句子长度、dims向量维数，将其分成n头注意力机制，每个注意力头的维度根据以下公式进行划分：

5、i∈[1,n]

6、if i≤n-1:

7、

8、if i＝n:

9、

10、上述公式中，i代表第i个注意力头，n代表注意力头数，表示第i个注意力头的维数，d代表向量维数；

11、对每个注意力头，分别单独计算attention：

12、

13、然后将所有头的attention进行叠加，就得到了最终的注意力机制：

14、

15、一种基于改进transformer模型的文本翻译方法，、包含：

16、对multi30k机器翻译数据集进行解析，划分训练集、验证集、测试集。

17、分别对英文文本和德文文本进行分词处理与词频统计；

18、根据词频对分词按照索引进行编码从而构建词表；

19、将原本的字符文本按照词表映射成数型编码；

20、构建改进transformer模型，所述改进transformer模型包含自适应长短头注意力机制模块，所述自适应长短头注意力机制模块对输入向量的维度进行不等份划分；

21、对所述改进transformer模型进行训练；

22、通过所述改进transformer模型执行文本翻译任务。

23、进一步地，构建的改进transformer模型中的自适应长短头注意力机制模块对输入向量的维度进行不等份划分的具体方法为：

24、对于输入特征向量x(b,l,d)，其中依次代表batch批次、length句子长度、dims向量维数，将其分成n头注意力机制，每个注意力头的维度根据以下公式进行划分：

25、i∈[1,n]

26、if i≤n-1:

27、

28、if i＝n:

29、

30、上述公式中，i代表第i个注意力头，n代表注意力头数，表示第i个注意力头的维数，d代表向量维数；

31、对每个注意力头，分别单独计算attention：

32、

33、然后将所有头的attention进行叠加，就得到了最终的注意力机制：

34、

35、进一步地，将数据集按照7:2:1划分训练集、验证集、测试集。

36、一种基于改进transformer模型的文本翻译系统，包含：

37、数据划分模块，用于对multi30k机器翻译数据集进行解析，划分训练集、验证集、测试集。

38、数据处理模块，用于分别对英文文本和德文文本进行分词处理与词频统计；

39、词表构建模块，用于根据词频对分词按照索引进行编码从而构建词表；

40、映射模块，用于将原本的字符文本按照词表映射成数型编码；

41、构建模块，用于构建改进transformer模型，所述改进transformer模型包含自适应长短头注意力机制模块，所述自适应长短头注意力机制模块对输入向量的维度进行不等份划分；

42、对所述改进transformer模型进行训练，通过训练好的所述改进transformer模型执行文本翻译任务。

43、进一步地，通过所述构建模块构建的改进transformer模型中的自适应长短头注意力机制模块对输入向量的维度进行不等份划分的具体方法为：

44、对于输入特征向量x(b,l,d)，其中依次代表batch批次、length句子长度、dims向量维数，将其分成n头注意力机制，每个注意力头的维度根据以下公式进行划分：

45、i∈[1,n]

46、if i≤n-1:

47、

48、if i＝n:

49、

50、上述公式中，i代表第i个注意力头，n代表注意力头数，表示第i个注意力头的维数，d代表向量维数；

51、对每个注意力头，分别单独计算attention：

52、

53、然后将所有头的attention进行叠加，就得到了最终的注意力机制：

54、

55、进一步地，通过所述数据划分模块将数据集按照7:2:1划分训练集、验证集、测试集。

56、本专利技术的有益之处在于所提供的改进transformer模型、文本翻译方法和系统，对transformer模型进行了改进，将transformer模型中的多头注意力机制模块替换成自适应长短头注意力机制模块，赋予多个注意力头不同长短的维度，使模型提取不同长短维度之间的特征信息，达到提高准确率，加快收敛速度的目的。

本文档来自技高网...

【技术保护点】

1.一种改进Transformer模型，其特征在于，所述改进Transformer模型包含自适应长短头注意力机制模块，所述自适应长短头注意力机制模块对输入向量的维度进行不等份划分。

2.根据权利要求1所述的改进Transformer模型，其特征在于，

3.一种基于改进Transformer模型的文本翻译方法，其特征在于，包含：

4.根据权利要求3所述的基于改进Transformer模型的文本翻译方法，其特征在于，

5.根据权利要求4所述的基于改进Transformer模型的文本翻译方法，其特征在于，

6.一种基于改进Transformer模型的文本翻译系统，其特征在于，包含：

7.根据权利要求6所述的基于改进Transformer模型的文本翻译方法，其特征在于，

8.根据权利要求6所述的基于改进Transformer模型的文本翻译方法，其特征在于，

【技术特征摘要】

1.一种改进transformer模型，其特征在于，所述改进transformer模型包含自适应长短头注意力机制模块，所述自适应长短头注意力机制模块对输入向量的维度进行不等份划分。

2.根据权利要求1所述的改进transformer模型，其特征在于，

3.一种基于改进transformer模型的文本翻译方法，其特征在于，包含：

4.根据权利要求3所述的基于改进transformer模...

【专利技术属性】
技术研发人员：向忠，周光宝，刘丽娴，郑泽宇，温苗苗，何治，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人