数据处理方法、装置及计算机存储介质制造方法及图纸

技术编号：28421492 阅读：18 留言：0更新日期：2021-05-11 18:29

本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质。根据本申请实施例提供的方案，首先通过获取得到的包含正确语料元素和错误语料元素的真实平行语料训练得到反向错误生成模型，并基于反向错误生成模型得到大量的模拟平行语料，从而可以基于所述模拟平行语料进行模型训练得到预训练模型，以及基于真实平行语料对预训练模型进行调整得到纠错模型，提高了训练得到的纠错模型的泛化性能，纠错模型也更准确。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置及计算机存储介质
本申请实施例涉及计算机
，尤其涉及一种数据处理方法、装置及计算机存储介质。
技术介绍
在纠错场景中，神经网络机器翻译(NeuralMachineTranslation,NMT)模型开始逐渐替代统计翻译(SMT)模型，将搜索时输入的错误文本纠正为正确文本。NMT模型在模型训练阶段，通常需要使用同时包含模拟错误语料元素和正确语料元素的平行语料，也即：错误→正确语料对进行训练。例如，错误语料为“乐明苑”，正确语料为“乐民苑”，则“乐明苑”和“乐民苑”即构成了一组平行语料。然而，平行语料特别是双语平行语料(例如，京鹏串吧→京朋串吧)的挖掘成本往往很高，但挖掘出双语平行语料的数量较少情况，这会影响训练得到的NMT模型的准确度。因此，如何提升NMT模型的纠错能力以实现准确的查询或者搜索成为亟待解决的问题。
技术实现思路
有鉴于此，本申请实施例提供一种数据处理方案，以至少部分解决上述问题。根据本申请实施例的第一方面，提供了一种数据处理方法，包括：获取包含正确语料元素和错误语料元素的真实平行语料，用所述真实平行语料训练反向错误生成模型；获取模拟正确语料元素，用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素，生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料；用所述模拟平行语料训练序列映射模型得到预训练模型；用所述真实平行语料进行所述预训练模型调整，得到纠错模型。根据本申请实施例的第二方面，提供了一种数据处...

【技术保护点】
1.一种数据处理方法，包括：/n获取包含正确语料元素和错误语料元素的真实平行语料，用所述真实平行语料训练反向错误生成模型；/n获取模拟正确语料元素，用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素，生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料；/n用所述模拟平行语料训练序列映射模型得到预训练模型；/n用所述真实平行语料进行所述预训练模型调整，得到纠错模型。/n

【技术特征摘要】
1.一种数据处理方法，包括：
获取包含正确语料元素和错误语料元素的真实平行语料，用所述真实平行语料训练反向错误生成模型；
获取模拟正确语料元素，用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素，生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料；
用所述模拟平行语料训练序列映射模型得到预训练模型；
用所述真实平行语料进行所述预训练模型调整，得到纠错模型。

2.如权利要求1所述的方法，其中，用所述真实平行语料进行所述预训练模型调整，包括：
采用所述真实平行语料训练所述预训练模型，在训练过程中，增大所述真实平行语料中的错误语料元素包含的错误字符所对应的交叉熵的权重系数。

3.如权利要求1所述的方法，其中，用所述真实平行语料进行所述预训练模型调整，包括：
采用所述真实平行语料训练所述预训练模型，在训练过程中，按照真实平行语料包含的字符的顺序调整字符所对应的交叉熵的权重系数，其中，字符排序越靠前，该字符所对应的交叉熵的权重系数越大。

4.如权利要求1所述的方法，其中，用所述真实平行语料进行所述预训练模型调整，包括：
采用包含所述模拟平行语料和真实平行语料的混合语料集合调整所述预训练模型；或者，
采用包含所述真实平行语料的单一语料集合调整所述预训练模型。

5.如权利要求1所述的方法，其中，用所述模拟平行语料训练序列映射模型得到预训练模型，包括：
根据所述模拟平行语料训练序列映射模型得到中间预训练模型；
获取预先确定的错误语料，根据所述错误语料调整所述中间预训练模型，得到调整后的目标预训练模型，其中，所述错误语料中错误语料元素与正确语料元素的差异程度大于所述模拟平行语料中模拟错误语料元素与模拟正确语料元素的差异程度。

6.如权利要求1所述的方法，其中，用所述模拟平行语料训练序列映射模型得到预训练模型，包括：<...

【专利技术属性】
技术研发人员：张高伟，赵德祥，孔二勇，刘宇，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人