System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于示例感知的机器翻译大语言模型的翻译方法及装置制造方法及图纸_技高网

基于示例感知的机器翻译大语言模型的翻译方法及装置制造方法及图纸

技术编号:42303870 阅读:4 留言:0更新日期:2024-08-14 15:51
本发明专利技术涉及机器翻译领域,特别是指一种基于示例感知的机器翻译大语言模型的翻译方法及装置,方法包括:构造句子级感知示例以及文档级感知示例;根据句子级感知示例、文档级感知示例构造的示例感知训练数据,根据训练数据以及低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型;构造领域翻译示例以及文档级翻译示例;根据领域翻译示例以及文档级翻译示例,对训练好的机器翻译大语言模型进行优化,得到构建好的示例感知能力提升的机器翻译大语言模型,进而得到翻译结果。本发明专利技术不仅能够为特定领域翻译和文档级翻译等特定需求提供定制化解决方案,还能够在不牺牲翻译质量的前提下,显著提高翻译效率和性能。

【技术实现步骤摘要】

本专利技术涉及机器翻译,特别是指一种基于示例感知的机器翻译大语言模型的翻译方法及装置


技术介绍

1、随着大语言模型技术在学术界和产业界上取得了显著进展,在机器翻译中表现出令人印象深刻的性能,机器翻译大语言模型逐渐成为了自然语言处理领域的一个热门研究主题。在大模型上通过提供相关示例进行上下文学习或者通过翻译数据监督学习的方式对大模型进行微调,使大模型在多种语言下适应翻译任务,展示出了卓越的翻译能力,因此近年来得到了研究者们的广泛关注。

2、目前机器翻译大语言模型技术包括基于提示的方法和基于微调的方法来使用大语言模型。基于提示的机器翻译大语言模型通过向基础的大语言模型提供示例来激活模型的翻译能力,提供了一种无需训练的方法,可以根据特定翻译需求(如特定领域翻译)进行快速部署。然而这种方法受到固定参数的制约,限制了其适应性和翻译深度。相比之下,基于微调的机器翻译大语言模型通过在机器翻译特定数据集上进行有监督的微调来增强翻译能力,从而通过参数更新提高性能。但是这种方法往往忽视了大语言模型的上下文学习能力,尤其是在一些需要示例感知的翻译场景,仅仅使用简单指令的句子级翻译会限制机器翻译大语言模型的翻译能力。


技术实现思路

1、为了解决现有机器翻译中示例感知与学习的不足,如何克服基于提示和基于微调的机器翻译大语言模型的局限性,从而实现更高效、更精准的机器翻译的技术问题,本专利技术实施例提供了一种基于示例感知的机器翻译大语言模型的翻译方法及装置。所述技术方案如下:

2、一方面,提供了一种基于示例感知的机器翻译大语言模型的翻译方法,该方法由机器翻译大语言模型的翻译设备实现,该方法包括:

3、s1、获取待翻译的数据。

4、s2、将数据输入到构建好的示例感知能力提升的机器翻译大语言模型。

5、s3、根据数据以及示例感知能力提升的机器翻译大语言模型,得到翻译结果。

6、其中,示例感知能力提升的机器翻译大语言模型的构建过程,包括:

7、s21、构造句子级感知示例以及文档级感知示例。

8、s22、根据所述句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据示例感知训练数据,通过低秩适应lora微调技术,得到训练好的机器翻译大语言模型。

9、s23、构造领域翻译示例以及文档级翻译示例。

10、s24、根据领域翻译示例以及文档级翻译示例,对训练好的机器翻译大语言模型进行翻译优化,得到构建好的示例感知能力提升的机器翻译大语言模型。

11、可选地,s21中的构造句子级感知示例以及文档级感知示例,包括:

12、s211、获取原始训练集。

13、s212、在原始训练集中,随机选取多个翻译对,将多个翻译对作为句子级感知示例。

14、s213、选取原始训练集中的任一翻译对,获取原始训练集中所选取的翻译对的前多个翻译对,将获取的多个翻译对作为文档级感知示例。

15、可选地,句子级感知示例,如下式(1)所示:

16、(1)

17、式中,表示第个翻译对的句子级感知示例,表示翻译对的数量,表示示例的格式,表示第个翻译对的源句子,表示第个翻译对的目标句子。

18、可选地,文档级感知示例,如下式(2)所示:

19、(2)

20、式中,表示文档级感知示例,表示句子在原始训练集中的顺序, 表示翻译对的数量,表示示例的格式,表示在第个句子前面的第个源句子,表示在第个句子前面的第个目标句子。

21、可选地,s22中的根据句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据示例感知训练数据,通过低秩适应lora微调技术,得到训练好的机器翻译大语言模型,包括:

22、s221、将句子级感知示例以及文档级感知示例与原始训练数据拼接,拼接后的训练数据通过伯努利概率进行混合,得到示例感知训练数据。

23、s222、获取基础的机器翻译大语言模型。

24、s223、采用低秩适应lora微调技术,对基础的机器翻译大语言模型添加可调参数,得到参数可调的机器翻译大语言模型。

25、s224、根据示例感知训练数据,对参数可调的机器翻译大语言模型进行训练,得到训练好的机器翻译大语言模型。

26、可选地,s223中的参数可调的机器翻译大语言模型的训练损失,如下式(3)所示:

27、(3)

28、式中,表示参数可调的机器翻译大语言模型的训练损失,表示交叉熵损失,表示目标句子的概率分布,表示目标句子,表示翻译的源句子,表示翻译中的指令,表示个翻译对的集合,表示基础的机器翻译大语言模型的参数在训练过程中被冻结,表示可调参数。

29、可选地,s23中的构造领域翻译示例以及文档级翻译示例,包括:

30、s231、获取原始训练集。

31、s232、根据r-bm25检索方法,对原始训练集中的翻译对进行打分排序,选取打分超过预设阈值的翻译对作为领域翻译示例。

32、s233、针对测试集中的目标句子,获取目标句子的前多个句子的翻译源语句和目标语句,将前多个句子的翻译源语句和目标语句输入至训练好的机器翻译大语言模型,得到机器翻译大语言模型生成的翻译示例,根据领域翻译示例以及机器翻译大语言模型生成的翻译示例,得到文档级翻译示例。

33、另一方面,提供了一种基于示例感知的机器翻译大语言模型的翻译装置,该装置应用于基于示例感知的机器翻译大语言模型的翻译方法,该装置包括:

34、获取模块,用于获取待翻译的数据。

35、输入模块,用于将数据输入到构建好的示例感知能力提升的机器翻译大语言模型。

36、输出模块,用于根据数据以及示例感知能力提升的机器翻译大语言模型,得到翻译结果。

37、其中,示例感知能力提升的机器翻译大语言模型的构建过程,包括:

38、s21、构造句子级感知示例以及文档级感知示例。

39、s22、根据句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据示例感知训练数据,通过低秩适应lora微调技术,得到训练好的机器翻译大语言模型。

40、s23、构造领域翻译示例以及文档级翻译示例。

41、s24、根据领域翻译示例以及文档级翻译示例,对训练好的机器翻译大语言模型进行翻译优化,得到构建好的示例感知能力提升的机器翻译大语言模型。

42、可选地,输入模块,进一步用于:

43、s211、获取原始训练集。

44、s212、在原始训练集中,随机选取多个翻译对,将多个翻译对作为句子级感知示例训练数据。

45、s213、选取原始训练集中的任一翻译对,获取原始训练集中所选取的翻译对的前多个翻译对,将获取的多个翻译对作为文档级感知示例训练数据。

46、可选地,句子级感知示例,如本文档来自技高网...

【技术保护点】

1.一种基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述S21中的构造句子级感知示例以及文档级感知示例,包括:

3.根据权利要求2所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述句子级感知示例,如下式(1)所示:

4.根据权利要求2所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述文档级感知示例,如下式(2)所示:

5.根据权利要求1所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述S22中的根据所述句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据所述示例感知训练数据,通过低秩适应LoRA微调技术,得到训练好的机器翻译大语言模型,包括:

6.根据权利要求5所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述S223中的参数可调的机器翻译大语言模型的训练损失,如下式(3)所示:

7.根据权利要求1所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述S23中的构造领域翻译示例以及文档级翻译示例,包括:

8.一种基于示例感知的机器翻译大语言模型的翻译装置,所述基于示例感知的机器翻译大语言模型的翻译装置用于实现如权利要求1-7任一项所述基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述装置包括:

9.一种机器翻译大语言模型的翻译设备,其特征在于,所述机器翻译大语言模型的翻译设备包括:

10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述s21中的构造句子级感知示例以及文档级感知示例,包括:

3.根据权利要求2所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述句子级感知示例,如下式(1)所示:

4.根据权利要求2所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述文档级感知示例,如下式(2)所示:

5.根据权利要求1所述的基于示例感知的机器翻译大语言模型的翻译方法,其特征在于,所述s22中的根据所述句子级感知示例以及文档级感知示例,构造示例感知训练数据;根据所述示例感知训练数据,通过低秩适应lora微调技术,得到训练好的机器翻译大语言模型,包括:

6.根...

【专利技术属性】
技术研发人员:刘学博李辰张梅山张民
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1