数据处理方法、装置及计算机存储介质制造方法及图纸

技术编号:28421492 阅读:14 留言:0更新日期:2021-05-11 18:29
本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质。根据本申请实施例提供的方案,首先通过获取得到的包含正确语料元素和错误语料元素的真实平行语料训练得到反向错误生成模型,并基于反向错误生成模型得到大量的模拟平行语料,从而可以基于所述模拟平行语料进行模型训练得到预训练模型,以及基于真实平行语料对预训练模型进行调整得到纠错模型,提高了训练得到的纠错模型的泛化性能,纠错模型也更准确。

【技术实现步骤摘要】
数据处理方法、装置及计算机存储介质
本申请实施例涉及计算机
,尤其涉及一种数据处理方法、装置及计算机存储介质。
技术介绍
在纠错场景中,神经网络机器翻译(NeuralMachineTranslation,NMT)模型开始逐渐替代统计翻译(SMT)模型,将搜索时输入的错误文本纠正为正确文本。NMT模型在模型训练阶段,通常需要使用同时包含模拟错误语料元素和正确语料元素的平行语料,也即:错误→正确语料对进行训练。例如,错误语料为“乐明苑”,正确语料为“乐民苑”,则“乐明苑”和“乐民苑”即构成了一组平行语料。然而,平行语料特别是双语平行语料(例如,京鹏串吧→京朋串吧)的挖掘成本往往很高,但挖掘出双语平行语料的数量较少情况,这会影响训练得到的NMT模型的准确度。因此,如何提升NMT模型的纠错能力以实现准确的查询或者搜索成为亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供一种数据处理方案,以至少部分解决上述问题。根据本申请实施例的第一方面,提供了一种数据处理方法,包括:获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型;获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料;用所述模拟平行语料训练序列映射模型得到预训练模型;用所述真实平行语料进行所述预训练模型调整,得到纠错模型。根据本申请实施例的第二方面,提供了一种数据处理装置,包括:错误模型训练模块,获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型;模拟模块,获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料;预训练模块,用所述模拟平行语料训练序列映射模型得到预训练模型;纠错模型训练模块,用所述真实平行语料进行所述预训练模型调整,得到纠错模型。根据本申请实施例的第三方面,提供了另一种数据处理方法,包括:接收携带查询词的查询请求;通过训练完成的纠错模型,对存在错误的查询词进行纠错处理,获得正确的查询词,其中,所述纠错模型为基于前述数据处理方法获得的纠错模型;根据所述纠错后的查询词,召回所述查询请求对应的查询结果。根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第三方面所述的数据处理方法对应的操作。根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第三方面所述的数据处理方法。根据本申请实施例提供的方案,首先通过获取得到的包含正确语料元素和错误语料元素的真实平行语料训练得到反向错误生成模型,并基于反向错误生成模型得到大量的模拟平行语料,从而可以基于所述模拟平行语料进行模型训练得到预训练模型,以及基于真实平行语料对预训练模型进行调整得到纠错模型,提高了训练得到的纠错模型的泛化性能,纠错模型也更准确。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例所提供的一种数据处理方法的流程示意图;图2为本申请实施例所给出的一种具体实施例的逻辑示意图;图3为本申请实施例所提供的一种数据处理装置的结构示意图;图4为本申请实施例所提供的另一种数据处理方法的流程示意图;图5为根据本申请实施例所提供的一种电子设备的结构示意图。具体实施方式为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。下面结合附图,进一步说明本申请实施例提供的方案的具体实现。如图1所示,图1为本申请实施例所提供的一种数据处理方法的流程示意图,包括:S101,获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型。平行语料指的是同时包含有正确语料元素和错误语料元素的语料,例如在查询或者搜索时输入“京鹏串吧”,而搜索结果中包含了“京朋串吧”。其中,“京鹏串吧”是真实存在的,即正确语料元素;而“京朋串吧”可能现实中并不存在,即为“错误语料元素”。正确语料元素和错误语料元素是相似度较高而存在少量差异的两个元素。正确语料元素和错误语料元素可以是诸如拼音字母和/或数字所组成的字符串、单个字符或者词组,因此正确语料元素和错误语料元素的差异部分也可以是同音字、同音词或者字形相近等等。二者的差异程度可以根据相应的模型或者实际经验进行评估,通常而言,差异的字符部分越多,则差异程度越大。基于线上产生的实际搜索信息,可以从中挖掘得到真实平行语料(例如,真实平行语料中的正确语料元素可能是真实存在的商户的名称、地点名称等等,真实平行语料中的错误语料元素可能是在查询该商户或者地点名称时所产生的错误输入)。但是这种挖掘得到的真实平行语料往往数量很少,且成本较高。平行语料是一种在正反两种场景中都可能存在的语料。即对象输入了“正确语料元素”进行搜索,可能得到包含“错误语料元素”的结果;也有可能是对象输入了“错误语料元素”,而得到包含了“正确语料元素”的结果。因此,在用于模型训练时,根据模型的用途,平行语料中的正确语料元素和错误语料元素都可以用作标签。基于前述,可以采用“正确语料元素→错误语料元素”的方式,即,以正确语料元素作为训练样本的特征,以错误语料元素作为标签,训练得到一个反向错误生成模型,用来根据正确语料元素生成错误语料元素。S103,获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料。在训练得到反向错误生成模型之后,即可以将模拟正确语料元素(模拟正确语料元素可以是现实中真实存在的商户名称、地点名称等等,也可以是虚构的商户名称或者地点名称等)作为反向错误生成模型的输入,从而反向错误生成模型即可以输出得到相对应的模拟错误语料元素。例如,以“益满园”作为模拟正确语料元素进行输入,就可能得到对应的三条模拟错误语料元素“义满园”、“益慢园”或者“益满圆”,从而得到三条不同的模拟平行语料(益满园,义满本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型;/n获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料;/n用所述模拟平行语料训练序列映射模型得到预训练模型;/n用所述真实平行语料进行所述预训练模型调整,得到纠错模型。/n

【技术特征摘要】
1.一种数据处理方法,包括:
获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型;
获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料;
用所述模拟平行语料训练序列映射模型得到预训练模型;
用所述真实平行语料进行所述预训练模型调整,得到纠错模型。


2.如权利要求1所述的方法,其中,用所述真实平行语料进行所述预训练模型调整,包括:
采用所述真实平行语料训练所述预训练模型,在训练过程中,增大所述真实平行语料中的错误语料元素包含的错误字符所对应的交叉熵的权重系数。


3.如权利要求1所述的方法,其中,用所述真实平行语料进行所述预训练模型调整,包括:
采用所述真实平行语料训练所述预训练模型,在训练过程中,按照真实平行语料包含的字符的顺序调整字符所对应的交叉熵的权重系数,其中,字符排序越靠前,该字符所对应的交叉熵的权重系数越大。


4.如权利要求1所述的方法,其中,用所述真实平行语料进行所述预训练模型调整,包括:
采用包含所述模拟平行语料和真实平行语料的混合语料集合调整所述预训练模型;或者,
采用包含所述真实平行语料的单一语料集合调整所述预训练模型。


5.如权利要求1所述的方法,其中,用所述模拟平行语料训练序列映射模型得到预训练模型,包括:
根据所述模拟平行语料训练序列映射模型得到中间预训练模型;
获取预先确定的错误语料,根据所述错误语料调整所述中间预训练模型,得到调整后的目标预训练模型,其中,所述错误语料中错误语料元素与正确语料元素的差异程度大于所述模拟平行语料中模拟错误语料元素与模拟正确语料元素的差异程度。


6.如权利要求1所述的方法,其中,用所述模拟平行语料训练序列映射模型得到预训练模型,包括:<...

【专利技术属性】
技术研发人员:张高伟赵德祥孔二勇刘宇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1