一种拼写纠错模型训练方法、拼写纠错方法及存储介质技术

技术编号：35894756 阅读：17 留言：0更新日期：2022-12-10 10:28

本发明专利技术涉及拼写纠错技术领域，特别涉及一种拼写纠错模型训练方法、拼写纠错方法及存储介质。拼写纠错模型训练方法包括以下步骤：获取包含领域知识的关键词词典，对每个关键词，利用预先总结的领域搜索范式为关键词加上包含领域知识的上下文，得到扩展领域文本；利用预设混淆集并按照预先设定的替换规则，对扩展领域文本中的文字进行替换，获得领域拼写纠错数据；基于领域拼写纠错数据训练拼写纠错模型。本发明专利技术由领域词典和少量的领域知识范式扩展上下文得到包含丰富领域知识的文本语料，在合成数据时，通过只对文本语料中部分文字进按照一定的规则替换，可以得到更贴合领域搜索场景的拼写纠错数据，使训练的模型具有更好的领域适应能力。域适应能力。域适应能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种拼写纠错模型训练方法、拼写纠错方法及存储介质

[0001]本专利技术涉及拼写纠错
，其特别涉及一种拼写纠错模型训练方法、拼写纠错方法及存储介质。

技术介绍

[0002]中文搜索拼写纠错研究如何检测并纠正搜素引擎的查询输入（query）里的中文拼写错误，返回正确的query。在搜索引擎中，用户希望得到和输入query相关的质量较好的网页或文档，但是往往出于各种原因，用户输入的query本身质量不高或是错误的，便可能会导致召回错误的结果，或者结果少甚至没有结果，此时为了提高用户的体验，搜索引擎需要对query进行纠正。现有的中文搜索拼写纠错方案通常会根据关键词构建对应的索引数据，在纠错时，先对query进行切分，根据每个切分片段的相似拼音、编辑距离、用户搜索历史记录等从索引数据中得到纠正候选，然后用候选替换原来的片段，使用n元语法模型、预训练模型等对候选进行评价并选择最终结果。对于领域搜索引擎的拼写纠错，由于传统方案使用多种策略对query进行纠正，整体流程繁琐，且难以解决长文本以及其中较为复杂的拼写错误，而且领域内有知识更新时，需要为其构建相关的索引数据，以及训练相应的候选评价模型，领域适应性较差。

技术实现思路

[0003]为了解决现有拼写纠错模型难以适应领域需求变化的问题，本专利技术提供一种拼写纠错模型训练方法、拼写纠错方法及存储介质。
[0004]本专利技术为解决上述技术问题，提供如下的技术方案：一种拼写纠错模型训练方法，包括以下步骤：获取包含领域知识的关键词词典，对每个关键词，...

【技术保护点】

【技术特征摘要】
1.一种拼写纠错模型训练方法，其特征在于：包括以下步骤：获取包含领域知识的关键词词典，对每个关键词，利用预先总结的领域范式为关键词加上包含领域知识的上下文，得到扩展领域文本；利用预设混淆集并按照预先设定的替换规则，对扩展领域文本中的文字进行替换，获得领域拼写纠错数据；基于领域拼写纠错数据训练拼写纠错模型。2.如权利要求1所述的拼写纠错模型训练方法，其特征在于：拼写纠错模型采用Soft
‑
Masked BERT拼写纠错模型。3.如权利要求1所述的拼写纠错模型训练方法，其特征在于：混淆集包含各文字以及其对应的同音字、近音字和近形字。4.如权利要求1所述的拼写纠错模型训练方法，其特征在于：利用预设混淆集并按照预先设定的替换规则，对文本中的文字进行替换包括以下步骤：预先设定的替换规则为领域知识替换时，对扩展领域文本中的领域知识进行替换；和/或预先设定的替换规则为文字替换时，利用混淆集对扩展领域文本的文字进行随机替换。5.如权利要求4所述的拼写纠错模型训练方法，其特征在于：在利用混淆集对扩展领域文本的文字进行随机替换之前，先从所有扩展领域文本中统计文字字频并对混淆集中的文字进行排序，根据排序后的混淆集对扩展领域文本中进行文字替换。6.如权利要求4所述的拼写纠错模型训练方法，其特征在于：对扩展...

【专利技术属性】
技术研发人员：马永亮，甘子发，周明，
申请(专利权)人：北京澜舟科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人