零资源跨语言对话模型训练方法、装置、设备和介质制造方法及图纸

技术编号:38970994 阅读:32 留言:0更新日期:2023-09-28 09:34
本发明专利技术涉及自然语言处理技术领域,提供一种零资源跨语言对话模型训练方法、装置、设备和介质,所述方法包括:基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型;将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据;基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练,得到零资源跨语言对话模型。本发明专利技术快速且低成本为零资源目标语言构建零资源跨语言对话模型。型。型。

【技术实现步骤摘要】
零资源跨语言对话模型训练方法、装置、设备和介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种零资源跨语言对话模型训练方法、装置、设备和介质。

技术介绍

[0002]目前,在进行人机对话时,多是通过某一语言的对话数据训练得到对话模型,但该对话模型只能针对单一语言进行对话,而无法进行跨语言对话。例如,通过英语的对话数据训练得到的对话模型,只能进行英语对话,而无法进行中文对话。
[0003]若需要进行跨语言对话,多通过收集多种语言的对话数据来训练得到跨语言对话模型,然而,为每种语言收集高质量的对话数据的成本通常较高,导致训练成本增加。

技术实现思路

[0004]本专利技术提供一种零资源跨语言对话模型训练方法、装置、设备和介质,用以解决现有技术中跨语言对话模型训练成本较高的缺陷。
[0005]本专利技术提供一种零资源跨语言对话模型训练方法,包括:获取初始样本源语言对话数据;基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
[0006]根据本专利技术提供的一种零资源跨语言对话模型训练方法,所述基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据,包括:对所述初始样本源语言对话数据进行前向翻译,得到所述样本目标语言对话数据;对所述样本目标语言对话数据进行后向翻译,得到样本源语言对话数据;基于所述初始样本源语言对话数据以及所述样本源语言对话数据,构建得到所述扩充样本源语言对话数据;基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双
语平行数据。
[0007]根据本专利技术提供的一种零资源跨语言对话模型训练方法,所述基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据,包括:基于所述扩充样本源语言对话数据中的对话输入数据、所述样本目标语言对话数据中的对话回复数据,以及所述样本源语言对话数据中的对话输入数据,构建得到所述第一跨语言对话数据;基于所述扩充样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本源语言对话数据中的对话回复数据,构建得到所述第二跨语言对话数据;基于所述扩充样本源语言对话数据中的对话输入数据、所述初始样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本目标语言对话数据中的对话回复数据,构建得到所述双语平行数据。
[0008]根据本专利技术提供的一种零资源跨语言对话模型训练方法,所述教师模型包括第一教师模型、第二教师模型以及第三教师模型;所述基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型,包括:基于所述双语平行数据,以及所述扩充样本源语言对话数据,训练得到所述第一教师模型;基于所述双语平行数据,以及所述第二跨语言对话数据,训练得到所述第二教师模型;基于所述双语平行数据,以及所述第一跨语言对话数据,训练得到所述第三教师模型。
[0009]根据本专利技术提供的一种零资源跨语言对话模型训练方法,所述蒸馏对话回复数据包括第一蒸馏对话回复数据、第二蒸馏对话回复数据以及第三蒸馏对话回复数据;所述将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据,包括:将所述样本目标语言对话数据的对话输入数据输入至所述第一教师模型,得到所述第一蒸馏对话回复数据;将所述样本目标语言对话数据的对话输入数据输入至所述第二教师模型,得到所述第二蒸馏对话回复数据;将所述样本目标语言对话数据的对话输入数据输入至所述第三教师模型,得到所述第三蒸馏对话回复数据。
[0010]根据本专利技术提供的一种零资源跨语言对话模型训练方法,所述零资源跨语言对话模型的损失值基于如下公式确定:;其中,表示所述损失值,表示所述零资源跨语言对话模型的模型参数,
和表示超参数,表示所述样本目标语言对话数据中的对话输入数据,表示所述样本目标语言对话数据中的对话回复数据,表示第个教师模型对应的蒸馏对话数据中的对话回复数据;表示基于所述样本目标语言对话数据训练的损失值,表示基于所述第个教师模型对应的蒸馏对话数据训练的损失值。
[0011]根据本专利技术提供的一种零资源跨语言对话模型训练方法,所述零资源跨语言对话模型包括编码器和解码器。
[0012]本专利技术还提供一种零资源跨语言对话模型训练装置,包括:数据获取单元,用于获取初始样本源语言对话数据;数据构建单元,用于基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;第一训练单元,用于基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;数据蒸馏单元,用于将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;第二训练单元,用于基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。
[0013]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述零资源跨语言对话模型训练方法。
[0014]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述零资源跨语言对话模型训练方法。
[0015]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述零资源跨语言对话模型训练方法。
[0016]本专利技术提供的零资源跨语言对话模型训练方法、装置、设备和介质,通过初始样本源语言对话数据,生成高质量的蒸馏对话回复数据,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种零资源跨语言对话模型训练方法,其特征在于,包括:获取初始样本源语言对话数据;基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;所述第一跨语言对话数据指从源语言到目标语言的对话数据,所述第二跨语言对话数据指从目标语言到源语言的对话数据,所述双语平行数据指源语言和目标语言之间的双语平行数据;基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型;将所述样本目标语言对话数据的对话输入数据输入至所述教师模型,得到蒸馏对话回复数据;基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据,对初始零资源跨语言对话模型进行蒸馏训练,得到零资源跨语言对话模型。2.根据权利要求1所述的零资源跨语言对话模型训练方法,其特征在于,所述基于所述初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据,包括:对所述初始样本源语言对话数据进行前向翻译,得到所述样本目标语言对话数据;对所述样本目标语言对话数据进行后向翻译,得到样本源语言对话数据;基于所述初始样本源语言对话数据以及所述样本源语言对话数据,构建得到所述扩充样本源语言对话数据;基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据。3.根据权利要求2所述的零资源跨语言对话模型训练方法,其特征在于,所述基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据,构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据,包括:基于所述扩充样本源语言对话数据中的对话输入数据、所述样本目标语言对话数据中的对话回复数据,以及所述样本源语言对话数据中的对话输入数据,构建得到所述第一跨语言对话数据;基于所述扩充样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本源语言对话数据中的对话回复数据,构建得到所述第二跨语言对话数据;基于所述扩充样本源语言对话数据中的对话输入数据、所述初始样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据,以及所述样本目标语言对话数据中的对话回复数据,构建得到所述双语平行数据。4.根据权利要求1至3任一项所述的零资源跨语言对话模型训练方法,其特征在于,所述教师模型包括第一教师模型、第二教师模型以及第三教师模型;所述基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种,和所述双语平行数据,训练得到教师模型,包括:基于所述双语平行数据,以及所述扩充样本源语言对话数据,训练得到所述第一教师<...

【专利技术属性】
技术研发人员:向露刘宇宸张亚萍周玉宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1