【技术实现步骤摘要】
文本纠错模型训练、文本纠错方法及相关装置
[0001]本专利技术实施例涉及计算机领域,尤其涉及一种文本纠错模型训练、文本纠错方法及相关装置。
技术介绍
[0002]随着人工智能技术的发展,自然语言处理技术的应用也越来越广泛。
[0003]然而,当自然语言处理系统处理带有噪声的文本时,其处理性能的下降非常明显,比如:垃圾邮件识别系统,通过精心设计的手段,比如:音近字、字母顺序改变、字母简单替换等,来绕过垃圾邮件识别系统的自动识别;或者对于需要对文本进行进一步处理的系统,也需要对带有噪声的文本进行提前纠错处理。
[0004]然而,现有技术中,对噪声文本的纠错识别效果较差。
[0005]因此,如何提高对文本的纠错效果,就成为本领域技术人员亟需解决的技术问题。
技术实现思路
[0006]本专利技术实施例提供一种文本纠错模型训练、文本纠错方法及相关装置,以提高对文本的纠错效果。
[0007]为解决上述问题,本专利技术实施例提供一种文本纠错模型训练方法,包括:利用文本纠错模型获取噪声文本,所述噪声文本包括噪声单词;对各个所述噪声单词执行以下操作:获取所述噪声单词的噪声单词特征,其中,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息以及所述噪声文本的各个噪声单词的单词依赖信息;根据所述噪声单词特征获取各个训练可能预测单词和各个训练可能预测单词的训练单词预测概率,根据各个所述训练单词预测概率和与所述噪声单词对应的准确单词的单词准确概率,获取对应的单词相似度;根据所述单词相似 ...
【技术保护点】
【技术特征摘要】
1.一种文本纠错模型训练方法,其特征在于,包括:利用文本纠错模型获取噪声文本,所述噪声文本包括噪声单词;对各个所述噪声单词执行以下操作:获取所述噪声单词的噪声单词特征,其中,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息,以及所述噪声文本的各个噪声单词的单词依赖信息;根据所述噪声单词特征获取各个训练可能预测单词和各个训练可能预测单词的训练单词预测概率,根据各个所述训练单词预测概率和与所述噪声单词对应的准确单词的单词准确概率,获取对应的单词相似度;当获取所述噪声文本的各个所述单词相似度时,根据各个所述单词相似度获取文本相似度,根据所述文本相似度对所述文本纠错模型的参数进行调整,直至所得到的文本相似度满足相似度阈值,结束所述文本纠错模型的训练。2.如权利要求1所述的文本纠错模型训练方法,其特征在于,所述对各个所述噪声单词执行以下操作的步骤还包括:获取所述噪声单词的各个噪声字母的噪声字母特征;根据所述噪声单词的各个所述噪声字母特征以及与所述噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能预测字母的字母预测概率向量,根据各个字母预测概率向量和与所述噪声字母对应的准确字母的字母准确概率向量,获取字母相似度;所述当获取所述噪声文本的各个所述单词相似度时,根据各个所述单词相似度获取文本相似度的步骤包括:当获取所述噪声文本的各个所述字母相似度和各个所述单词相似度时,根据各个所述字母相似度和各个所述单词相似度获取文本相似度。3.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述获取所述噪声单词的噪声单词特征的步骤包括:获取所述噪声文本的各个所述噪声单词的初始噪声单词特征,所述初始噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息;根据各个所述噪声单词的初始噪声单词特征的序列获取各个所述噪声单词的所述噪声单词特征,所述噪声单词特征包括所述噪声单词的各个噪声字母的字母依赖信息以及所述噪声文本的各个噪声单词的单词依赖信息。4.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述噪声文本的各个噪声单词后设置有单词结束符;所述获取所述噪声单词的各个噪声字母的噪声字母特征的步骤包括:按照所述噪声单词的排序获取噪声单词的各个噪声字母,并根据各个噪声字母获取噪声字母特征序列,直至获取到所述单词结束符;所述根据所述噪声字母的噪声字母特征以及与所述噪声字母的噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能预测字母的字母预测概率向量的步骤包括:当获取到所述单词结束符时,根据所述噪声单词的各个噪声字母特征以及与所述噪声字母的噪声单词对应的准确单词,获取所述噪声字母特征的各个可能预测字母和各个可能
预测字母的字母预测概率向量。5.如权利要求4所述的文本纠错模型训练方法,其特征在于,所述获取所述噪声文本的各个所述噪声单词的初始噪声单词特征的步骤包括:当获取到所述单词结束符时,得到所述单词结束符之前的噪声单词,并获取所述噪声单词的初始噪声单词特征,直至得到各个所述噪声单词的初始噪声单词特征。6.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述获取所述噪声单词的各个噪声字母的噪声字母特征的步骤包括利用多头注意力机制编码模块获取所述噪声单词的各个噪声字母的噪声字母特征。7.如权利要求2所述的文本纠错模型训练方法,其特征在于,所述根据各个所述字母相似度和各个所述单词相似度获取文本相似度的...
【专利技术属性】
技术研发人员:许国伟,丁文彪,刘子韬,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。