非对齐文本的纠错模型、训练及纠错方法技术

技术编号:34247732 阅读:50 留言:0更新日期:2022-07-24 10:47
本发明专利技术提供非对齐文本的纠错模型、训练及纠错方法,模型包括:编码器模型和解码器模型;编码器模型的预处理模块、编码词嵌入模块将所述第一文本向量E输出至编码层;编码层得到文本特征向量并将所述文本特征向量输出所述解码器模型的解码层;解码器模型的音素提取模块、解码词嵌入模块、第一解码多头注意力计算模块将若干个第二音素向量输出至解码层;解码层融合若干个第二音素向量得到音素特征向量,结合文本特征向量以及音素特征向量进行解码得到解码特征向量,并将解码特征向量作为对原始文本纠错后的文本。对文本纠错的各个处理过程在端对端模型的训练过程中得到修正和优化,避免误差积累的问题,有效提高纠错准确率。有效提高纠错准确率。有效提高纠错准确率。

Error correction model, training and error correction method of non aligned text

【技术实现步骤摘要】
非对齐文本的纠错模型、训练及纠错方法


[0001]本专利技术涉及文本纠错领域,更具体地,涉及非对齐文本的纠错模型、训练及纠错方法。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition,ASR)是自然语言处理中智能语音的一项基础任务,该技术能够广泛应用于智能客服、智能外呼等场景。在自动语音识别任务中,经常出现语音识别结果不够准确的情况,例如识别得到的文本出现错字、多字、少字等错误。其中,解决错字问题的任务被称为对齐文本纠错,同时解决错字、多字、少字问题的任务被称为非对齐文本纠错。非对齐文本纠错可应用于拼写纠偏、语音识别优化等任务,提升相应的文本准确率。
[0003]对于下游的自然语言处理业务而言,自动语音识别结果的纠错是一项关键的任务。而现有的文本纠错方案一般采用管道式处理,即分为三个顺序步骤:错误检测、候选召回、候选排序。错误检测是指检测定位文本中出现错误的点位,候选召回是指召回错误点位的正确候选词,候选排序是指需通过排序算法对召回的候选词进行打分排序,选择分数最高/顺序最前的一项与错误点位的词/字进行替换。现有的方案中会通过三个独立的模型分别实现三个步骤,但管道式处理的方式必然导致下游模型会强依赖上游模型的结果,则当某一模型出现误差时,该误差会在下游模型中不断累积,从而使最终结果出现较大误差。假设每个模型的模型准确率为,最终的纠错准确率为,如果准确率都是90%,最终的准确率只有73%。

技术实现思路

[0004]本专利技术旨在克服上述现有技术的至少一种缺陷,提供非对齐文本的纠错模型、训练及纠错方法,用于解决传统的文本纠错方案中容易出现误差累积,从而导致最终结果出现较大误差的问题。
[0005]本专利技术采用的技术方案包括:第一方面,本专利技术提供一种非对齐文本纠错模型,包括:编码器模型和解码器模型;所述编码器模型包括预处理模块、编码词嵌入模块,以及至少一层编码层;所述解码器模型包括音素提取模块、解码词嵌入模块,第一解码多头注意力计算模块,以及至少一层解码层;所述预处理模块用于将外部输入的原始文本S
o
进行预处理及编码,得到初始文本向量V0并输出至所述编码词嵌入模块;所述编码词嵌入模块用于将所述初始文本向量V0转换为指定维度的第一文本向量E,并将所述第一文本向量E输出至所述编码层;所述编码层用于对所述第一文本向量E进行编码得到文本特征向量M,并将所述文本特征向量M作为第一文本向量E输出至下一编码层,或直接将所述文本特征向量M输出所述解码器模型的解码层;所述音素提取模块用于将外部输入的原始文本S
o
进行音素信息的提取,并对所提取的音素信息进行编码,得到若干个初始音素向量V并将其输出至解码词嵌入模块;所述解码词
嵌入模块用于分别将若干个所述初始音素向量V转换为指定维度的第一音素向量e,并将若干个所述第一音素向量e输出至所述解码多头注意力计算模块;所述第一解码多头注意力计算模块用于分别对若干个所述第一音素向量e进行多头自注意力计算,得到若干个第二音素向量A并将其输出至所述解码层;所述解码层用于融合若干个第二音素向量A得到音素特征向量V
p
,结合所述文本特征向量M以及所述音素特征向量V
p
进行解码得到解码特征向量V
d
,并将所述解码特征向量V
d
作为其中一个第二音素向量A输出至下一解码层,或直接将所述解码特征向量V
d
作为对所述原始文本S
o
纠错后的文本。
[0006]本专利技术提供的非对齐文本纠错模型由编码器模型和解码器模型组成,该模型的纠错流程无人工干预,输入的为原始待纠错的文本,最后经过解码层输出的为原始文本纠错后的文本,由于整体模型已经囊括了纠错过程的预处理、编码和解码过程,保证了对文本的纠错不会存在误差积累的问题。同时,在纠错过程中,解码层将编码层编码得到的文本特征与解码器模型中编码得到的音素特征进行融合性解码,得到解码特征向量作为原始文本纠错后的文本,纠错过程通过融合文本的文本特征和音素特征,使解码器能够兼顾文本的语义特征和发音特征的纠错。
[0007]进一步,所述编码层包括编码多头注意力计算模块、第一编码归一化模块、编码前向传播模块和第二编码归一化模块;所述编码多头注意力计算模块用于对所述第一文本向量E进行多头自注意力计算,得到第二文本向量a并将其输出至第一编码归一化模块;所述第一编码归一化模块用于对所述第二文本向量a进行归一化处理,得到第三文本向量V
a
并将其输出至编码前向传播模块;所述编码前向传播模块用于对所述第三文本向量V
a
进行前向传播处理,得到第四文本向量V
f
并将其传输至第二编码归一化模块;所述第二编码归一化模块用于对所述第四文本向量V
f
进行归一化处理,得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层,或直接将所述文本特征向量M输出至所述解码层。
[0008]在编码层中,利用多头注意力机制、归一化处理以及前向传播处理,有效提取原始文本的文本特征向量,且可以通过多层编码层的重复处理,得到更加精准的文本特征向量。
[0009]进一步,所述解码层包括向量融合模块、第二解码多头注意力计算模块、第一解码归一化模块、解码前向传播模块和第二解码归一化模块;所述向量融合模块用于融合若干个第二音素向量A,得到音素特征向量V
p
并将其输出至第二解码多头注意力计算模块;所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量V
p
进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块;所述第一解码归一化模块用于对所述融合注意力向量N进行归一化处理,得到第一解码向量V
A
并将其输出至解码前向传播模块;所述解码前向传播模块用于对所述第一解码向量V
A
进行前向传播处理,得到第二解码向量V
F
并将其传输至第二解码归一化模块;所述第二解码归一化模块用于对所述第二解码向量V
F
进行归一化处理,得到解码特征向量V
d
并将其作为其中一个第二音素向量A输出至下一层解码层,或直接将所述解码特征向量V
d
作为对所述原始文本S
o
纠错后的文本。
[0010]在解码层中,同样利用多头注意力机制有效提出原始文本的若干个第二音素向量后,先对若干个第二音素向量进行融合得到音素特征向量,再利用多头注意力机制将音素特征向量与文本特征向量进行融合得到融合注意力向量,该融合注意力向量既包含了文本的文本特征,也包含了文本的音素特征,以使解码层在纠错过程中兼顾到文本的两种特征,
最后通过归一化和前向传播处理,从兼顾文本两种特征的融合注意力向量中得到解码特征向量,且可以通过多层解码器的重复处理,得到更加精准的解码特征向量,作为纠错后的文本。
[0011]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非对齐文本纠错模型,其特征在于,包括:编码器模型和解码器模型;所述编码器模型包括预处理模块、编码词嵌入模块,以及至少一层编码层;所述解码器模型包括音素提取模块、解码词嵌入模块、第一解码多头注意力计算模块,以及至少一层解码层;所述预处理模块用于将外部输入的原始文本S
o
进行预处理及编码,得到初始文本向量V
o
并输出至所述编码词嵌入模块;所述编码词嵌入模块用于将所述初始文本向量V
o
转换为指定维度的第一文本向量E,并将所述第一文本向量E输出至所述编码层;所述编码层用于对所述第一文本向量E进行编码得到文本特征向量M,并将所述文本特征向量M作为第一文本向量E输出至下一编码层,或直接将所述文本特征向量M输出所述解码器模型的解码层;所述音素提取模块用于将外部输入的原始文本S
o
进行音素信息的提取,并对所提取的音素信息进行编码,得到若干个初始音素向量V并将其输出至解码词嵌入模块;所述解码词嵌入模块用于分别将若干个所述初始音素向量V转换为指定维度的第一音素向量e,并将若干个所述第一音素向量e输出至所述第一解码多头注意力计算模块;所述第一解码多头注意力计算模块用于分别对若干个所述第一音素向量e进行多头自注意力计算,得到若干个第二音素向量A并将其输出至所述解码层;所述解码层用于融合若干个第二音素向量A得到音素特征向量V
p
结合所述文本特征向量M以及所述音素特征向量V
p
进行解码得到解码特征向量V
d
,并将所述解码特征向量V
d
作为其中一个第二音素向量A输出至下一解码层,或直接将所述解码特征向量V
d
作为对所述原始文本S
o
纠错后的文本。2.根据权利要求1所述的非对齐文本纠错模型,其特征在于,所述编码层包括编码多头注意力计算模块、第一编码归一化模块、编码前向传播模块和第二编码归一化模块;所述编码多头注意力计算模块用于对所述第一文本向量E进行多头自注意力计算,得到第二文本向量a并将其输出至第一编码归一化模块;所述第一编码归一化模块用于对所述第二文本向量a进行归一化处理,得到第三文本向量V
a
并将其输出至编码前向传播模块;所述编码前向传播模块用于对所述第三文本向量V
a
进行前向传播处理,得到第四文本向量V
f
并将其传输至第二编码归一化模块;所述第二编码归一化模块用于对所述第四文本向量V
f
进行归一化处理,得到文本特征向量M并将其作为第一文本向量E输出至下一层编码层,或直接将所述文本特征向量M输出至所述解码层。3.根据权利要求1所述的非对齐文本纠错模型,其特征在于,所述解码层包括向量融合模块、第二解码多头注意力计算模块、第一解码归一化模块、解码前向传播模块和第二解码归一化模块;所述向量融合模块用于融合若干个第二音素向量A,得到音素特征向量V
p
并将其输出至第二解码多头注意力计算模块;所述第二解码多头注意力计算模块用于结合所述文本特征向量M和所述音素特征向量
V
p
进行多头自注意力计算,得到融合注意力向量N并将其输出至所述第一解码归一化模块;所述第一解码归一化模块用于对所述融合注意力向量N进行归一化处理,得到第一解码向量V
A
并将其输出至解码前向传播模块;所述解码前向传播模块用于对所述第一解码向量V

【专利技术属性】
技术研发人员:许程冲赵文博肖清
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1