一种拼写纠错模型训练方法、拼写纠错方法及存储介质技术

技术编号:35894756 阅读:17 留言:0更新日期:2022-12-10 10:28
本发明专利技术涉及拼写纠错技术领域,特别涉及一种拼写纠错模型训练方法、拼写纠错方法及存储介质。拼写纠错模型训练方法包括以下步骤:获取包含领域知识的关键词词典,对每个关键词,利用预先总结的领域搜索范式为关键词加上包含领域知识的上下文,得到扩展领域文本;利用预设混淆集并按照预先设定的替换规则,对扩展领域文本中的文字进行替换,获得领域拼写纠错数据;基于领域拼写纠错数据训练拼写纠错模型。本发明专利技术由领域词典和少量的领域知识范式扩展上下文得到包含丰富领域知识的文本语料,在合成数据时,通过只对文本语料中部分文字进按照一定的规则替换,可以得到更贴合领域搜索场景的拼写纠错数据,使训练的模型具有更好的领域适应能力。域适应能力。域适应能力。

【技术实现步骤摘要】
一种拼写纠错模型训练方法、拼写纠错方法及存储介质


[0001]本专利技术涉及拼写纠错
,其特别涉及一种拼写纠错模型训练方法、拼写纠错方法及存储介质。

技术介绍

[0002]中文搜索拼写纠错研究如何检测并纠正搜素引擎的查询输入(query)里的中文拼写错误,返回正确的query。在搜索引擎中,用户希望得到和输入query相关的质量较好的网页或文档,但是往往出于各种原因,用户输入的query本身质量不高或是错误的,便可能会导致召回错误的结果,或者结果少甚至没有结果,此时为了提高用户的体验,搜索引擎需要对query进行纠正。现有的中文搜索拼写纠错方案通常会根据关键词构建对应的索引数据,在纠错时,先对query进行切分,根据每个切分片段的相似拼音、编辑距离、用户搜索历史记录等从索引数据中得到纠正候选,然后用候选替换原来的片段,使用n元语法模型、预训练模型等对候选进行评价并选择最终结果。对于领域搜索引擎的拼写纠错,由于传统方案使用多种策略对query进行纠正,整体流程繁琐,且难以解决长文本以及其中较为复杂的拼写错误,而且领域内有知识更新时,需要为其构建相关的索引数据,以及训练相应的候选评价模型,领域适应性较差。

技术实现思路

[0003]为了解决现有拼写纠错模型难以适应领域需求变化的问题,本专利技术提供一种拼写纠错模型训练方法、拼写纠错方法及存储介质。
[0004]本专利技术为解决上述技术问题,提供如下的技术方案:一种拼写纠错模型训练方法,包括以下步骤:获取包含领域知识的关键词词典,对每个关键词,利用预先总结的领域搜索范式为关键词加上包含领域知识的上下文,得到扩展领域文本;利用预设混淆集并按照预先设定的替换规则,对扩展领域文本中的文字进行替换,获得领域拼写纠错数据;基于领域拼写纠错数据训练拼写纠错模型。
[0005]优选地,拼写纠错模型采用Soft

Masked BERT拼写纠错模型。
[0006]优选地,混淆集包含各文字以及其对应的同音字、近音字和近形字。
[0007]优选地,利用预设混淆集并按照预先设定的替换规则,对文本中的文字进行替换包括以下步骤:预先设定的替换规则为领域知识替换时,对扩展领域文本中的领域知识进行替换;和/或预先设定的替换规则为文字替换时,利用混淆集对扩展领域文本的文字进行随机替换。
[0008]优选地,在利用混淆集对扩展领域文本的文字进行随机替换之前,先从所有扩展
领域文本中统计文字字频并对混淆集中的文字进行排序,根据排序后的混淆集对扩展领域文本中进行文字替换。
[0009]优选地,对扩展领域文本中的文字进行替换时选择小于或等于15%的文字进行替换。
[0010]优选地,在利用预先总结的领域范式为关键词加上包含领域知识的上下文,得到扩展领域文本之后还包括以下步骤:利用关键词和预先总结的领域范式在网络上获取相关的领域文本;并将这些相关的领域文本也作为扩展领域文本。
[0011]优选地,基于领域拼写纠错数据训练拼写纠错模型包括以下步骤:输入拼写纠错数据至拼写纠错模型中,每个字符看作一个token,将每个token转换为BERT词典中相对应的编号;拼写纠错模型的Embedding层将拼写纠错数据中每个字符转换为一个向量;提取向量的特征得到特征向量,之后将特征向量输入分类器将其转为与BERT字典大小相同维度的向量,作为最终输出向量;最后将输出向量转化为预测结果。
[0012]本专利技术为解决上述技术问题,提供又一技术方案如下:一种拼写纠错方法,包括以下步骤:获取拼写纠错模型,所述拼写纠错模型采用如前述的拼写纠错模型训练方法训练获得;输入待纠错文本至拼写纠错模型中,由拼写纠错模型输出纠正后的文本。
[0013]本专利技术为解决上述技术问题,提供又一技术方案如下:一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如前述的一种拼写纠错方法的步骤。
[0014]与现有技术相比,本专利技术所提供的一种拼写纠错模型训练方法、拼写纠错方法及存储介质,具有如下的有益效果:1.本专利技术实施例提供的一种拼写纠错模型训练方法,由领域词典和少量的领域知识范式扩展上下文得到包含丰富领域知识的文本语料,此外,在合成数据时,通过只对文本语料中部分文字进按照一定的规则替换,比如只对文本语料中的领域知识按规则进行替换,可以得到更贴合领域搜索场景的拼写纠错数据,在合成语料文本后,还通过关键词在网络上搜索相关的领域文本,以丰富领域的语料,符合领域搜索的复杂场景,使训练的模型具有更好的领域适应能力,而且无须积累用户搜索的历史数据,使模型具有更加良好的冷启动效果。
[0015]2.本专利技术实施例提供的一种拼写纠错模型训练方法,采用Soft

Masked BERT拼写纠错模型,相比传统纠错方案,该模型强大的语义表征能力使其可以处理更加复杂的拼写错误,并且该模型为检测纠正一体化的端到端模型,中间没有额外输入输出,可以方便快速地迭代,能更好地适应领域知识的变化更新。
[0016]3.本专利技术实施例提供的一种拼写纠错模型训练方法,根据预先设置的替换规则不同,可以得到不同复杂程度的领域拼写纠错数据,可只对领域知识进行替换,使模型更加关注于领域知识的纠错;也可根据从语料中统计的字频对混淆集进行排序,选择领域中更常见的混淆字进行替换,更符合真实输入场景。
[0017]4.本专利技术实施例还提供一种拼写纠错方法,具有与采用上述一种拼写纠错模型训练方法训练获得的拼写纠错模型相同的有益效果,在此不做赘述。
[0018]5.本专利技术实施例还提供一种计算机存储介质,具有与上述一种拼写纠错方法相同的有益效果,在此不做赘述。
附图说明
[0019]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术第一实施例提供的一种拼写纠错模型训练方法的步骤流程图。
[0021]图2是本专利技术第一实施例提供的一种拼写纠错模型训练方法之步骤S1之后的步骤流程图。
[0022]图3是本专利技术第一实施例提供的一种拼写纠错模型训练方法之步骤S2的步骤流程图。
[0023]图4是本专利技术第一实施例提供的一种拼写纠错模型训练方法之步骤S3的步骤流程图。
[0024]图5是本专利技术第一实施例提供的一种拼写纠错模型训练方法的流程示例图。
[0025]图6是本专利技术第二实施例提供的一种拼写纠错方法的步骤流程图。
具体实施方式
[0026]为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0027]请参阅图1,本专利技术第一实施例提供一种拼写纠错模型训练方法,包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拼写纠错模型训练方法,其特征在于:包括以下步骤:获取包含领域知识的关键词词典,对每个关键词,利用预先总结的领域范式为关键词加上包含领域知识的上下文,得到扩展领域文本;利用预设混淆集并按照预先设定的替换规则,对扩展领域文本中的文字进行替换,获得领域拼写纠错数据;基于领域拼写纠错数据训练拼写纠错模型。2.如权利要求1所述的拼写纠错模型训练方法,其特征在于:拼写纠错模型采用Soft

Masked BERT拼写纠错模型。3.如权利要求1所述的拼写纠错模型训练方法,其特征在于:混淆集包含各文字以及其对应的同音字、近音字和近形字。4.如权利要求1所述的拼写纠错模型训练方法,其特征在于:利用预设混淆集并按照预先设定的替换规则,对文本中的文字进行替换包括以下步骤:预先设定的替换规则为领域知识替换时,对扩展领域文本中的领域知识进行替换;和/或预先设定的替换规则为文字替换时,利用混淆集对扩展领域文本的文字进行随机替换。5.如权利要求4所述的拼写纠错模型训练方法,其特征在于:在利用混淆集对扩展领域文本的文字进行随机替换之前,先从所有扩展领域文本中统计文字字频并对混淆集中的文字进行排序,根据排序后的混淆集对扩展领域文本中进行文字替换。6.如权利要求4所述的拼写纠错模型训练方法,其特征在于:对扩展...

【专利技术属性】
技术研发人员:马永亮甘子发周明
申请(专利权)人:北京澜舟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1