一种双语样本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：28037406 阅读：56 留言：0更新日期：2021-04-09 23:19

本申请实施例提供的一种双语样本生成方法、装置、电子设备及存储介质，应用于信息技术领域，可以通过预先训练好的网络模型进行语言样本的自动生成，其中，该预先训练好的网络模型可以根据不同语序的第二语种语言和样本语言，生成多个语言样本，再从中选取满足要求的语言样本。从而可以使得所生成的语言样本可以满足不同语序的要求，保证语言样本的适用性和生成质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种双语样本生成方法、装置、电子设备及存储介质
本申请涉及信息
，特别是涉及一种双语样本生成方法、装置、电子设备及存储介质。
技术介绍
目前，随着人工智能的快速发展，机器翻译已经越来越广泛的被人们所应用。通过训练好的机器翻译的模型，可以自动将第二语种翻译为对应的第一语种，从而降低人工翻译成本，减少翻译时间，提高翻译的效率和质量。而在对机器翻译的模型进行训练的过程中，为了提高模型翻译的精度，往往需要大量的第二语种数据和与之对应的第一语种数据所组成的样本，对模型进行训练。而传统的通过人工方式进行大量的语言样本的制作时，例如，训练样本为你好，对应的参照样本为hello，而在实际训练过程中训练样本往往需要几十万甚至上亿条，所需的人工成本较高，且制作的效率较低。
技术实现思路
本申请实施例的目的在于提供一种双语样本生成方法、装置、电子设备及存储介质，以实现双语言样本的快速生成。具体技术方案如下：在本申请实施的第一方面，首先提供了一种双语样本生成方法，包括：获取第一语种数据；将第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型，对第一语种数据进行翻译，得到第一翻译网络模型对应的第一翻译结果和第二翻译网络模型对应的第二翻译结果，其中，第一翻译网络模型是以第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型，第二翻译网络模型是以第一语种样本数据为训练样本以逆序后的第二语种样本数据为测试样本训练得到的网络模型，逆序后的第二语种样本数据为通...

【技术保护点】
1.一种双语样本生成方法，其特征在于，包括：/n获取第一语种数据；/n将所述第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型，对所述第一语种数据进行翻译，得到所述第一翻译网络模型对应的第一翻译结果和所述第二翻译网络模型对应的第二翻译结果，其中，所述第一翻译网络模型是以第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型，所述第二翻译网络模型是以第一语种样本数据为训练样本以逆序后的第二语种样本数据为测试样本训练得到的网络模型，所述逆序后的第二语种样本数据为通过改变所述第二语种样本的语序但不改变所述第二语种样本的语义所得到的样本数据；/n调整所述第一语种数据的语序，并将逆序后的第一语种数据输入预先训练的第三翻译网络模型和预先训练的第四翻译网络模型，对所述逆序后的第一语种数据进行翻译，得到所述第三翻译网络模型对应的第三翻译结果和所述第四翻译网络模型对应的第四翻译结果，其中，所述第三翻译网络模型是以逆序后的第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型，所述第四翻译网络模型是以逆序后第一语种样本数据为训练样本以逆序后的第二语种...

【技术特征摘要】
1.一种双语样本生成方法，其特征在于，包括：
获取第一语种数据；
将所述第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型，对所述第一语种数据进行翻译，得到所述第一翻译网络模型对应的第一翻译结果和所述第二翻译网络模型对应的第二翻译结果，其中，所述第一翻译网络模型是以第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型，所述第二翻译网络模型是以第一语种样本数据为训练样本以逆序后的第二语种样本数据为测试样本训练得到的网络模型，所述逆序后的第二语种样本数据为通过改变所述第二语种样本的语序但不改变所述第二语种样本的语义所得到的样本数据；
调整所述第一语种数据的语序，并将逆序后的第一语种数据输入预先训练的第三翻译网络模型和预先训练的第四翻译网络模型，对所述逆序后的第一语种数据进行翻译，得到所述第三翻译网络模型对应的第三翻译结果和所述第四翻译网络模型对应的第四翻译结果，其中，所述第三翻译网络模型是以逆序后的第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型，所述第四翻译网络模型是以逆序后第一语种样本数据为训练样本以逆序后的第二语种样本数据为测试样本训练得到的网络模型；
调整所述第二翻译结果和所述第四翻译结果的语序，得到正序的第二翻译结果和正序的第四翻译结果；
选取所述第一翻译结果、所述第三翻译结果、所述正序的第二翻译结果和所述正序的第四翻译结果中任一翻译结果与其余翻译结果进行对比；
当任一翻译结果与其余翻译结果中一致的数量大于预设阈值时，将所述任一翻译结果与对应的第一语种数据组成双语样本。

2.根据权利要求1所述的方法，其特征在于，所述当任一翻译结果与其余翻译结果中一致的数量大于预设阈值时，将所述任一翻译结果与对应的第一语种数据组成双语样本，包括：
当任一翻译结果与其余翻译结果中至少两项翻译结果一致时，停止进行对比，并将所述任一翻译结果与对应的第一语种数据组成双语样本。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型，对所述第一语种数据进行翻译，得到所述第一翻译网络模型对应的第一翻译结果和所述第二翻译网络模型对应的第二翻译结果，包括：
将所述第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型，对所述第一语种数据进行翻译，得到所述第一翻译网络模型对应的第一待输出数据和所述第二翻译网络模型对应的第二待输出数据；
对所述第一待输出数据和第二待输出数据进行解码，得到第一待输出数据对应的多个解码结果和各所述解码结果对应的预测概率和第二待输出数据对应的多个解码结果和各所述解码结果对应的预测概率，其中，所述预测概率用于表示对应的解码结果为正确翻译结果的概率；
选取所述第一待输出数据对应的多个解码结果中对应的预测概率最大的解码结果和所述第二待输出数据对应的多个解码结果中对应的预测概率最大的解码结果，得到所述第一翻译网络模型对应的第一翻译结果和所述第二翻译网络模型对应的第二翻译结果。

4.根据权利要求1所述的方法，其特征在于，所述调整所述第一语种数据的语序，并将逆序后的第一语种数据输入预先训练的第三翻译网络模型和预先训练的第四翻译网络模型，对所述逆序后的第一语种数据进行翻译，得到所述第三翻译网络模型对应的第三翻译结果和所述第四翻译网络模型对应的第四翻译结果，包括：
将所述第一语种进行逆序，得到逆序的第一语种数据；
将所述逆序后的第一语种数据输入预先训练的第三翻译网络模型和预先训练的第四翻译网络模型，对逆序后的第一语种数据进行翻译，得到所述第三翻译网络模型对应的第三待输出数据和所述第四翻译网络模型对应的第四待输出数据；
对所述第三待输出数据和第四待输出数据进行解码，得到第三待输出数据对应的多个解码结果和各所述解码结果对应的预测概率和第四待输出数据对应的多个解码结果和各所述解码结果对应的预测概率，其中，所述预测概率用于表示对应的解码结果为正确翻译结果的概率；
选取所述第三待输出数据对应的多个解码结果中对应的预测概率最大的解码结果和所述第四待输出数据对应的多个解码结果中对应的预测概率最大的解码结果，得到所述第三翻译网络模型对应的第三翻译结果和所述第四翻译网络模型对应的第四翻译结果。

5.根据权利要求1所述的方法，其特征在于，所述第一翻译网络模型的训练过程，包括：
获取第一语种A样本数据和对应的第二语种B样本数据；
将所述第一语种A样本数据输入待训练的网络模型对所述第一语种A样本数据进行翻译，得到第一翻译结果；
将所述第一翻译结果与所述第二语种B...

【专利技术属性】
技术研发人员：代嘉慧，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人