System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法、装置、存储介质及计算机程序产品制造方法及图纸_技高网

文本处理方法、装置、存储介质及计算机程序产品制造方法及图纸

技术编号:43808821 阅读:3 留言:0更新日期:2024-12-27 13:25
本申请实施例公开了一种文本处理方法、装置、存储介质及计算机程序产品,方法包括:利用路由器将结构相同、具备不同语言文本处理能力的不同语言模型集成,得到集成模型;每个语言模型各自包括级联的词表、词嵌入层、注意力层、前向层和生成器,路由器连接于不同语言模型的前向层与注意力层之间;将待处理文本分别输入集成模型中的每个语言模型,在每个语言模型进行文本处理过程中,通过路由器从所连接的各个前向层中为每个语言模型的注意力层产生的隐层状态分配前向层,以进行前向计算。

【技术实现步骤摘要】

本申请实施例涉及人工智能,尤其涉及一种文本处理方法、装置、存储介质及计算机程序产品


技术介绍

1、近年来,语言大模型成为了自然语言处理研究界与人工智能产业界的重点关注话题,其突出的语言理解与生成能力使众多研究者意识到当今的人工智能的发展正在步入通用人工智能时代。而多语言能力则是语言大模型在发展过程中不可忽视的方向之一。面向多语言的大模型不仅需要具备在多种语言上具有强悍的性能表现,而且还要具备强劲的跨语言理解与生成能力。然而针对不同语言可获取的训练数据在数量、质量以及领域等方面都有着很大的差异,这使得多语言大模型系统的建立并非一蹴而就。

2、目前,一方面,可以基于单语或少量语言的大模型进行多语言扩展,一般采用的语言扩展方法需要对词表进行扩展再对模型继续预训练,在该过程中,不但需要收集待扩展语种的数据,还需要采样原语言数据与待扩展数据进行配比。然而,即使这样也未必能做到很好地支持新语言的同时避免严重的灾难性遗忘,另一方面,可以直接构建多语言大模型,在此情况下,需要准备大规模的多语言训练数据,然而所面临的困境是面向不同语言所收集的数据难以做到数量、质量和领域等方面的统一,不同语言数据的筛选、清洗、和预处理策略也会有所不同,对人力需求的要求也会随语言的稀缺程度而增加。这使得不同语言的数据需经过不同的迭代次数才能达到较好的质量,这就使得模型的迭代成本大幅度增加,因此直接构建多语言大模型是一件极其费时费力的工作。

3、基于上述内容可知,目前的多语言大模型数据构建难度大,并且对不同语言文本的处理所表现出的性能良莠不齐


技术实现思路

1、本申请实施例提供一种文本处理方法、装置、存储介质及计算机程序产品,采用模型集成的方式将具备不同语言文本处理能力的不同语言模型整合,利用集成模型进行文本处理,不仅能够节约大量的计算资源、充分利用已有语言模型,而且对不同语言文本的处理均表现出良好的性能。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供了一种文本处理方法,包括:

4、利用路由器将结构相同、具备不同语言文本处理能力的不同语言模型集成,得到集成模型;每个语言模型各自包括级联的词表、词嵌入层、注意力层、前向层和生成器,所述路由器连接于不同语言模型的前向层与注意力层之间;

5、将待处理文本分别输入所述集成模型中的每个语言模型,在每个语言模型进行文本处理过程中,通过所述路由器从所连接的各个前向层中为每个语言模型的注意力层产生的隐层状态分配前向层,以进行前向计算。

6、在上述方法中,所述通过所述路由器从所连接的各个前向层中为每个语言模型的注意力层产生的隐层状态分配前向层,包括:

7、通过所述路由器,计算第一隐层状态分配到所连接的各个前向层的概率值;

8、以及,按照概率值从大到小的顺序对前向层排序,为所述第一隐层状态分配前k个前向层用于分别进行前向计算;

9、其中,k为大于或者等于1的自然数,所述第一隐层状态为任一语言模型的注意力层产生的隐层状态。

10、在上述方法中,所述集成模型还包括收集器,所述收集器连接于不同语言模型的前向层与生成器之间,所述方法还包括:

11、在每个语言模型进行文本处理过程中,通过所述收集器,收集整理每个语言模型的注意力层产生的隐层状态的前向计算结果,并传递至同一语言模型的下一结构。

12、在上述方法中,所述集成模型中,所述路由器与不同语言模型的前向层之间连接有不同的适配器,所述收集器与不同语言模型的生成器之间分别连接有不同的还原器,所述方法还包括:

13、在每个语言模型进行文本处理过程中,通过每个适配器将经过的隐层状态与相连的前向层适配,并通过每个还原器将经过的前向计算结果进行适配还原。

14、在上述方法中,所述集成模型还包括评分模型,所述评分模型与集成模型中每个语言模型的生成器连接,所述方法还包括:

15、通过所述评分模型,对每个语言模型的生成器产生的所述待处理文本的文本处理结果进行评分,并输出评分最高的文本处理结果。

16、在上述方法中,还包括:

17、通过所述评分模型,为每个语言模型基于各自生成器产生的所述待处理文本的文本处理结果的评分,设置对应的优化权重,以用于确定所述集成模型的损失函数;

18、其中,所述集成模型的模型损失函数为不同语言模型的损失函数与对应优化权重的加权求和结果。

19、在上述方法中,还包括:

20、采用控制变量法,分别配置所述集成模型中所述路由器、每个适配器和每个还原器的参数;

21、在配置参数之后,训练所述集成模型,并在训练过程中保持所述集成模型中每个语言模型的参数不变,优化所述路由器、每个适配器和每个还原器的参数。

22、在上述方法中,所述采用控制变量法,分别确定所述集成模型中所述路由器、每个适配器和每个还原器的参数,包括:

23、在所述集成模型中将每个适配器和每个还原器移除后,将所述路由器的参数作为变量,同时保持每个语言模型的参数不变,对样本文本进行文本处理,为所述路由器配置样本文本的处理结果最优时的参数;

24、在完成所述路由器参数配置之后,在所述集成模型重新加入每个适配器和每个还原器,将每个适配器和每个还原器的参数作为变量,同时保持每个语言模型和所述路由器的参数不变,对样本文本进行文本处理,为每个适配器和每个还原器配置样本文本的处理结果最优时的参数。

25、本申请实施例提供了一种文本处理装置,包括:

26、模型集成模块,用于利用路由器将结构相同、具备不同语言文本处理能力的不同语言模型集成,得到集成模型;每个语言模型各自包括级联的词表、词嵌入层、注意力层、前向层和生成器,所述路由器连接于不同语言模型的前向层与注意力层之间;

27、文本处理模块,用于将待处理文本分别输入所述集成模型中的每个语言模型;在每个语言模型进行文本处理过程中,所述路由器用于从所连接的各个前向层中为每个语言模型的注意力层产生的隐层状态分配前向层,以进行前向计算。

28、本申请实施例提供了一种文本处理装置,包括:处理器、存储器和通信总线;

29、所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;

30、所述处理器,用于执行所述存储器存储的一个或者多个计算机程序,以实现上述文本处理方法。

31、本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述文本处理方法。

32、本申请实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被执行时实现上述文本处理方法。

33、本申请实施例提供一种文本处理方法、装置、存储介质及计算机程序产品,方法包括:利用路由器将结构相同、具备不同语言文本处理能力的不同语言模型集成,得到集成模型;每个语言模型各自包括本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过所述路由器从所连接的各个前向层中为每个语言模型的注意力层产生的隐层状态分配前向层,包括:

3.根据权利要求1所述的方法,其特征在于,所述集成模型还包括收集器,所述收集器连接于不同语言模型的前向层与生成器之间,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述集成模型中,所述路由器与不同语言模型的前向层之间连接有不同的适配器,所述收集器与不同语言模型的生成器之间分别连接有不同的还原器,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述集成模型还包括评分模型,所述评分模型与集成模型中每个语言模型的生成器连接,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述采用控制变量法,分别确定所述集成模型中所述路由器、每个适配器和每个还原器的参数,包括:

9.一种文本处理装置,其特征在于,包括:

10.一种文本处理装置,其特征在于,包括:处理器、存储器和通信总线;

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8任一项所述的文本处理方法。

12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-8任一项所述的文本处理方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过所述路由器从所连接的各个前向层中为每个语言模型的注意力层产生的隐层状态分配前向层,包括:

3.根据权利要求1所述的方法,其特征在于,所述集成模型还包括收集器,所述收集器连接于不同语言模型的前向层与生成器之间,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述集成模型中,所述路由器与不同语言模型的前向层之间连接有不同的适配器,所述收集器与不同语言模型的生成器之间分别连接有不同的还原器,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述集成模型还包括评分模型,所述评分模型与集成模型中每个语言模型的生成器连接,所述方法还包括:

...

【专利技术属性】
技术研发人员:黄鑫韩雪冯俊兰
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1