System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的术语翻译方法及装置制造方法及图纸_技高网

基于大语言模型的术语翻译方法及装置制造方法及图纸

技术编号:42512374 阅读:21 留言:0更新日期:2024-08-27 19:27
本发明专利技术公开了一种基于大语言模型的术语翻译方法及装置,其中所述方法包括:对所述训练集进行分词,生成第一文本和第二文本;对所述第二文本进行词性标注,生成词性标注结果;对齐所述第一文本和所述第二文本,生成对齐文件;根据所述词性标注结果和所述对齐文件,生成术语结果和翻译结果;根据所述第一文本、所述术语结果和所述翻译结果,生成训练模板;对所述训练模板进行微调,生成训练模型;基于所述训练模型对进行翻译。本发明专利技术实施例的技术方案提高了自然语言处理系统的准确性,而且提高了用户体验,有利于专业术语的标准化和准确性。

【技术实现步骤摘要】

本专利技术实施例涉及机器翻译,尤其涉及一种基于大语言模型的术语翻译方法及装置


技术介绍

1、近年来,自然语言处理技术(nlp)在众多领域都表现出了广泛的应用价值,尤其是在翻译领域。然而,尽管技术在不断地发展和进步,现有的nlp系统在实际应用中仍存在一些显著的问题。特别的,对于特定术语的翻译常常出现不一致性,而且跨上下文的翻译也往往缺乏准确性。这主要是因为现有技术往往针对每一句话单独进行翻译,而没有充分利用上下文信息,这导致了在具有相同术语的不同上下文中,术语的翻译结果可能会相差很大。这种现象严重影响了翻译的精度和一致性。


技术实现思路

1、本专利技术实施例提供一种基于大语言模型的术语翻译方法及装置,其提高了自然语言处理系统的准确性,而且提高了用户体验,有利于专业术语的标准化和准确性

2、为实现上述目的,第一方面,本专利技术提供了一种基于大语言模型的术语翻译方法,包括:

3、步骤s100,对所述训练集进行分词,生成第一文本和第二文本;

4、步骤s200,对所述第二文本进行词性标注,生成词性标注结果;

5、步骤s300,对齐所述第一文本和所述第二文本,生成对齐文件;

6、步骤s400,根据所述词性标注结果和所述对齐文件,生成术语结果和翻译结果;

7、步骤s500,根据所述第一文本、所述术语结果和所述翻译结果,生成训练模板;

8、步骤s600,对所述训练模板进行微调,生成训练模型;

9、步骤s700,基于所述训练模型对进行翻译。

10、在本专利技术的一实施方式中,所述步骤s100包括:

11、步骤s101,对所述训练集中的原文通过第一预设方法进行分词,生成所述第一文本;

12、步骤s102,对所述训练集中的译文通过第二预设方法进行分词,生成所述第二文本;

13、其中,所述第一预设方法与所述第二预设方法不同或相同。

14、在本专利技术的一实施方式中,所述步骤s200包括:

15、通过预设模型对所述第二文本进行词性标注,生成所述词性标注结果。

16、在本专利技术的一实施方式中,所述步骤s300包括:

17、通过预设工具对所述第一文本和所述第二文本进行对齐,生成所述对齐文件。

18、第二方面,本专利技术提供了一种基于大语言模型的术语翻译装置,包括:第一生成模块、第二生成模块、第三生成模块、第四生成模块、第五生成模块、第六生成模块以及翻译模块。所述第一生成模块用于对所述训练集进行分词,生成第一文本和第二文本;所述第二生成模块用于对所述第二文本进行词性标注,生成词性标注结果;所述第三生成模块用于对齐所述第一文本和所述第二文本,生成对齐文件;所述第四生成模块用于根据所述词性标注结果和所述对齐文件,生成术语结果和翻译结果;所述第五生成模块用于根据所述第一文本、所述术语结果和所述翻译结果,生成训练模板;所述第六生成模块用于对所述训练模板进行微调,生成训练模型;所述翻译模块用于基于所述训练模型对进行翻译。

19、在本专利技术的一实施方式中,所述第一生成模块包括:第一生成单元以及第二生成单元。所述第一生成单元用于对所述训练集中的原文通过第一预设方法进行分词,生成所述第一文本;所述第二生成单元用于对所述训练集中的译文通过第二预设方法进行分词,生成所述第二文本;其中,所述第一预设方法与所述第二预设方法不同或相同。

20、在本专利技术的一实施方式中,所述第二生成模块包括第三生成单元,用于通过预设模型对所述第二文本进行词性标注,生成所述词性标注结果。

21、在本专利技术的一实施方式中,所述第三生成模块包括第四生成单元,用于通过预设工具对所述第一文本和所述第二文本进行对齐,生成所述对齐文件。

22、第三方面,本专利技术提供了一种电子设备,包括:

23、至少一个处理器;以及

24、与所述至少一个处理器通信连接的存储器;

25、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于大语言模型的术语翻译方法。

26、第四方面,本专利技术提供了一种计算机可读存储介质,包括计算机程序和指令,当所述计算机程序或所述指令在计算机上运行时,使得所述计算机执行如上所述的基于大语言模型的术语翻译方法。

27、与现有技术相比,根据本专利技术的基于大语言模型的术语翻译方法及装置,解决了现有机翻系统在术语翻译上的问题,通过使用术语翻译模板,有效提高了翻译的精确度和一致性;同时,由于模板中已预设好准确的翻译,也使得整体翻译结果更加流畅,理解含义复杂的中文成语和短语更加精准。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的术语翻译方法,其特征在于,包括:

2.如权利要求1所述的基于大语言模型的术语翻译方法,其特征在于,所述对训练集进行分词,生成第一文本和第二文本包括:

3.如权利要求1所述的基于大语言模型的术语翻译方法,其特征在于,所述对第二文本进行词性标注,生成词性标注结果包括:

4.如权利要求1所述的基于大语言模型的术语翻译方法,其特征在于,所述对齐第一文本和所述第二文本,生成对齐文件包括:

5.一种基于大语言模型的术语翻译装置,其特征在于,包括:

6.如权利要求5所述的基于大语言模型的术语翻译装置,其特征在于,所述第一生成模块包括:

7.如权利要求5所述的基于大语言模型的术语翻译装置,其特征在于,所述第二生成模块包括:

8.如权利要求5所述的基于大语言模型的术语翻译装置,其特征在于,所述第三生成模块包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括计算机程序和指令,当所述计算机程序或所述指令在计算机上运行时,使得所述计算机执行如权利要求1-4中任一项所述的基于大语言模型的术语翻译方法。

...

【技术特征摘要】

1.一种基于大语言模型的术语翻译方法,其特征在于,包括:

2.如权利要求1所述的基于大语言模型的术语翻译方法,其特征在于,所述对训练集进行分词,生成第一文本和第二文本包括:

3.如权利要求1所述的基于大语言模型的术语翻译方法,其特征在于,所述对第二文本进行词性标注,生成词性标注结果包括:

4.如权利要求1所述的基于大语言模型的术语翻译方法,其特征在于,所述对齐第一文本和所述第二文本,生成对齐文件包括:

5.一种基于大语言模型的术语翻译装置,其特征在于,包括:

6.如...

【专利技术属性】
技术研发人员:贝超宗浩苑聪虎刘欢陈文涛
申请(专利权)人:中译语通科技昆明有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1