零资源跨语言对话模型训练方法、装置、设备和介质制造方法及图纸

技术编号：38970994 阅读：32 留言：0更新日期：2023-09-28 09:34

本发明专利技术涉及自然语言处理技术领域，提供一种零资源跨语言对话模型训练方法、装置、设备和介质，所述方法包括：基于初始样本源语言对话数据，构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据；基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种，和双语平行数据，训练得到教师模型；将样本目标语言对话数据的对话输入数据输入至教师模型，得到蒸馏对话回复数据；基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练，得到零资源跨语言对话模型。本发明专利技术快速且低成本为零资源目标语言构建零资源跨语言对话模型。型。型。

全部详细技术资料下载

【技术实现步骤摘要】
零资源跨语言对话模型训练方法、装置、设备和介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种零资源跨语言对话模型训练方法、装置、设备和介质。

技术介绍

[0002]目前，在进行人机对话时，多是通过某一语言的对话数据训练得到对话模型，但该对话模型只能针对单一语言进行对话，而无法进行跨语言对话。例如，通过英语的对话数据训练得到的对话模型，只能进行英语对话，而无法进行中文对话。
[0003]若需要进行跨语言对话，多通过收集多种语言的对话数据来训练得到跨语言对话模型，然而，为每种语言收集高质量的对话数据的成本通常较高，导致训练成本增加。

技术实现思路

[0004]本专利技术提供一种零资源跨语言对话模型训练方法、装置、设备和介质，用以解决现有技术中跨语言对话模型训练成本较高的缺陷。
[0005]本专利技术提供一种零资源跨语言对话模型训练方法，包括：获取初始样本源语言对话数据；基于所述初始样本源语言对话数据，构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据；所述第一跨语言对话数据指从源语言到目标语言的对话数据，所述第二跨语言对话数据指从目标语言到源语言的对话数据，所述双语平行数据指源语言和目标语言之间的双语平行数据；基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种，和所述双语平行数据，训练得到教师模型；将所述样本目标语言对话数据的对话输入数据输入至所述教师模型，得到蒸馏对话回复数据；...

【技术保护点】

【技术特征摘要】
1.一种零资源跨语言对话模型训练方法，其特征在于，包括：获取初始样本源语言对话数据；基于所述初始样本源语言对话数据，构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据；所述第一跨语言对话数据指从源语言到目标语言的对话数据，所述第二跨语言对话数据指从目标语言到源语言的对话数据，所述双语平行数据指源语言和目标语言之间的双语平行数据；基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种，和所述双语平行数据，训练得到教师模型；将所述样本目标语言对话数据的对话输入数据输入至所述教师模型，得到蒸馏对话回复数据；基于所述样本目标语言对话数据的对话输入数据以及所述蒸馏对话回复数据，对初始零资源跨语言对话模型进行蒸馏训练，得到零资源跨语言对话模型。2.根据权利要求1所述的零资源跨语言对话模型训练方法，其特征在于，所述基于所述初始样本源语言对话数据，构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据，包括：对所述初始样本源语言对话数据进行前向翻译，得到所述样本目标语言对话数据；对所述样本目标语言对话数据进行后向翻译，得到样本源语言对话数据；基于所述初始样本源语言对话数据以及所述样本源语言对话数据，构建得到所述扩充样本源语言对话数据；基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据，构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据。3.根据权利要求2所述的零资源跨语言对话模型训练方法，其特征在于，所述基于所述扩充样本源语言对话数据、所述样本目标语言对话数据以及所述样本源语言对话数据，构建得到所述第一跨语言对话数据、所述第二跨语言对话数据以及所述双语平行数据，包括：基于所述扩充样本源语言对话数据中的对话输入数据、所述样本目标语言对话数据中的对话回复数据，以及所述样本源语言对话数据中的对话输入数据，构建得到所述第一跨语言对话数据；基于所述扩充样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据，以及所述样本源语言对话数据中的对话回复数据，构建得到所述第二跨语言对话数据；基于所述扩充样本源语言对话数据中的对话输入数据、所述初始样本源语言对话数据中的对话回复数据、所述样本目标语言对话数据中的对话输入数据，以及所述样本目标语言对话数据中的对话回复数据，构建得到所述双语平行数据。4.根据权利要求1至3任一项所述的零资源跨语言对话模型训练方法，其特征在于，所述教师模型包括第一教师模型、第二教师模型以及第三教师模型；所述基于所述扩充样本源语言对话数据、所述第一跨语言对话数据以及所述第二跨语言对话数据中的至少一种，和所述双语平行数据，训练得到教师模型，包括：基于所述双语平行数据，以及所述扩充样本源语言对话数据，训练得到所述第一教师<...

【专利技术属性】
技术研发人员：向露，刘宇宸，张亚萍，周玉，宗成庆，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人