语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:37153028 阅读:16 留言:0更新日期:2023-04-06 22:11
本申请公开了一种语音识别方法、装置、设备及存储介质,本申请基于待识别语音得到由实体词类别标签及其余非实体词的字符组成的初步识别文本,进一步,基于实体词类别标签对应的语音片段和预设的发音词典及语言模型,得到实体词类别标签对应的实体词字符,由实体词字符替换掉初步识别文本中对应的实体词类别标签,得到最终的识别文本。在出现新的领域实体词时,只需要对发音词典和语言模型进行更新即可,无需对语音识别模型进行迭代更新,学习成本更低,且不会出现由于更新语音识别模型导致的灾难性遗忘问题,并且能够保证对新出现的领域实体词的识别准确度。域实体词的识别准确度。域实体词的识别准确度。

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别
,更具体的说,是涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能和深度学习的发展,语音识别技术得到广泛使用,涵盖了人机交互的各个领域。领域语音识别的核心难题在于存在大量的领域专业实体词。领域专业实体词尤其是较低频词通常来说在语音识别模型的训练数据中较少出现,并且领域专业实体词汇是不断更新的,例如,在语音导航应用中,不断会有新的公司名称和地点名称出现。领域专业实体词的上述特点决定了在实际应用中,需要不断的对语音识别系统进行更新,以实现领域语音识别保持较高的准确率。
[0003]为了满足新出现的领域专业实体词的识别率要求,现有方法通常需要录制或者合成出包含领域专业实体词的语句对语音识别模型进行更新学习。示例如:首先,利用规则或者训练好的上下文扩展模型,根据当前领域实体词的文字构造大量不同的上下文文本。例如,一首新的歌曲A出现了之后,需要构造出“给我来一首A”,“我想听新歌A”等上下文文本。接着,利用语音合成模型合成上述文本对应的语音,并对语音做加噪、加混响、音色转换等数据增强操作。最后,利用上述语料,对当前语音识别模型进行更新迭代学习。得到的新模型通常可以提高新增领域实体词的识别准确率。
[0004]但是,上述处理方式也存在缺点,示例如:
[0005]第一,现有技术需要对语音识别模型进行不断的更新学习,因此整个过程费时费力,成本较高。
[0006]第二,现有技术对于新增领域实体词的识别准确率提升效果不稳定。首先,识别准确率的提升幅度高度依赖于所构造的训练语料。对于未构造的上下文说法,识别准确率通常提升幅度十分有限。
[0007]第三,现有技术难以实现增量的学习,即难以保证更新后的语音识别模型对于已有领域实体词的识别准确率不下降。机器学习领域长期以来一直悬而未决的问题之一就是灾难性遗忘问题。由于现有技术中语音识别模型根据新的语料进行了更新,或多或少的会出现对之前训练数据的遗忘,尤其在多次的更新之后,灾难性遗忘问题会变得尤为严重,学了新的,忘了旧的。

技术实现思路

[0008]鉴于上述问题,提出了本申请以便提供一种语音识别方法、装置、设备及存储介质,以实现在不需要对语音识别模型进行更新的情况下,保证对新出现的领域实体词的识别准确率。具体方案如下:
[0009]第一方面,提供了一种语音识别方法,包括:
[0010]获取待识别语音;
[0011]基于所述待识别语音得到初步识别文本,所述初步识别文本包括实体词类别标签及其余非实体词的字符;
[0012]基于所述待识别语音中所述实体词类别标签对应的语音片段和预设的发音词典及语言模型,得到所述实体词类别标签对应的实体词字符,由所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签,得到最终的识别文本。
[0013]优选地,上述基于待识别语音得到初步识别文本,以及,得到实体词类别标签对应的实体词字符,由所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签,得到最终的识别文本的过程,通过预配置的语音识别模型实现。
[0014]优选地,还包括:
[0015]在获取到新增的领域实体词时,确定所述领域实体词对应的音节或音素,并将所述领域实体词与音节或音素的对应关系添加到所述预设的发音词典中,以及,将所述领域实体词添加到所述语言模型中。
[0016]优选地,所述语言模型为基于各领域实体词所构建的语言模型。
[0017]优选地,所述语音识别模型包括编码器、一级解码器、二级解码器及输出层;
[0018]所述编码器,用于对输入的待识别语音进行编码,得到声学编码特征;
[0019]所述一级解码器,用于以字符为建模单元,基于所述声学编码特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本;
[0020]所述二级解码器,用于以音节或音素为建模单元,基于实体词类别标签对应的语音片段的声学编码特征,解码得到实体词类别标签对应的音节或音素,并结合预设的发音词典及语言模型将音节或音素转换为字符,得到实体词类别标签对应的实体词字符;
[0021]所述输出层,用于利用所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签,得到最终输出的识别文本。
[0022]优选地,所述一级解码器,以字符为建模单元,基于所述声学编码特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本的过程,包括:
[0023]所述一级解码器以字符为建模单元,基于所述声学编码特征及一级解码器的实时状态特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本。
[0024]优选地,所述一级解码器以字符为建模单元,基于所述声学编码特征及一级解码器的实时状态特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本的过程,包括:
[0025]一级解码器以字符为建模单元,以解码第t个字符时对每一帧声学编码特征的关注度为权重,对各帧声学编码特征进行加权求和,得到解码第t个字符时的声学编码特征c
t
,基于解码第t个字符时的声学编码特征c
t
及解码第t个字符时一级解码器的状态特征d
t
,解码第t个字符,直至全部解码后得到由实体词类别标签及其余非实体词的字符组成的初步识别文本。
[0026]优选地,所述二级解码器以音节或音素为建模单元,基于实体词类别标签对应的语音片段的声学编码特征,解码得到实体词类别标签对应的音节或音素的过程,包括:
[0027]二级解码器以音节或音素为建模单元,基于一级解码器解码实体词类别标签时的声学编码特征,解码得到实体词类别标签对应的音节或音素。
[0028]优选地,所述语音识别模型的训练过程,包括:
[0029]获取训练语音及对应的识别文本,所述识别文本中标注有实体词的类别标签;
[0030]利用实体词的类别标签替换掉识别文本中对应的实体词,得到编辑后识别文本;
[0031]将所述训练语音输入语音识别模型,得到一级解码器输出的初步识别文本,以及二级解码器输出的实体词类别标签对应的实体词字符;
[0032]基于一级解码器输出的初步识别文本及所述编辑后识别文本确定第一损失函数,基于二级解码器输出的实体词类别标签对应的实体词字符及实体词类别标签对应的原始实体词确定第二损失函数;
[0033]结合所述第一损失函数和所述第二损失函数,训练语音识别模型的网络参数,直至满足训练结束条件为止。
[0034]优选地,所述利用实体词的类别标签替换掉识别文本中对应的实体词,得到编辑后识别文本,包括:
[0035]确定实体词包含的字符数量,并以同等数量的实体词类别标签替换掉识别文本中对应的实体词,得到编辑后识别文本。
[0036]第二方面,提供了一种语音识别方法,包括:
[0037]获取待识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音;基于所述待识别语音得到初步识别文本,所述初步识别文本包括实体词类别标签及其余非实体词的字符;基于所述待识别语音中所述实体词类别标签对应的语音片段和预设的发音词典及语言模型,得到所述实体词类别标签对应的实体词字符,由所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签,得到最终的识别文本。2.根据权利要求1所述的方法,其特征在于,基于待识别语音得到初步识别文本,以及,得到实体词类别标签对应的实体词字符,由所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签,得到最终的识别文本的过程,通过预配置的语音识别模型实现。3.根据权利要求1所述的方法,其特征在于,还包括:在获取到新增的领域实体词时,确定所述领域实体词对应的音节或音素,并将所述领域实体词与音节或音素的对应关系添加到所述预设的发音词典中,以及,将所述领域实体词添加到所述语言模型中。4.根据权利要求1所述的方法,其特征在于,所述语言模型为基于各领域实体词所构建的语言模型。5.根据权利要求2所述的方法,其特征在于,所述语音识别模型包括编码器、一级解码器、二级解码器及输出层;所述编码器,用于对输入的待识别语音进行编码,得到声学编码特征;所述一级解码器,用于以字符为建模单元,基于所述声学编码特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本;所述二级解码器,用于以音节或音素为建模单元,基于实体词类别标签对应的语音片段的声学编码特征,解码得到实体词类别标签对应的音节或音素,并结合预设的发音词典及语言模型将音节或音素转换为字符,得到实体词类别标签对应的实体词字符;所述输出层,用于利用所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签,得到最终输出的识别文本。6.根据权利要求5所述的方法,其特征在于,所述一级解码器,以字符为建模单元,基于所述声学编码特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本的过程,包括:所述一级解码器以字符为建模单元,基于所述声学编码特征及一级解码器的实时状态特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本。7.根据权利要求6所述的方法,其特征在于,所述一级解码器以字符为建模单元,基于所述声学编码特征及一级解码器的实时状态特征,解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本的过程,包括:一级解码器以字符为建模单元,以解码第t个字符时对每一帧声学编码特征的关注度为权重,对各帧声学编码特征进行加权求和,得到解码第t个字符时的声学编码特征c
t
,基于解码第t个字符时的声学编码特征c
t
及解码第t个字符时一级解码器的状态特征d
t
,解码第t个字符,直至全部解码后得到由实体词类别标签及其余非实体词的字符组成的初步识别文本。
8.根据权利要求5所述的方法,其特征在于,所述二级解码器以音节或音素为建模单元,基于实体词类别标签对应的语音片段的声学编码特征,解码得到实体词类别标签对应的音节或音素的过程,包括:二级解码器以音节或音素为建模单元,基于一级解码器解码实体词类别标签时的声学编码特征,解码得到实体词类别标签对应的音节或音素。9.根据权利要求5所述的方法,其特征在于,所述语音识别模型的训练过程,包括:获取训练语音及对应的识别文本,所述识别文本中标注有实体词的类别标签;利用实体词...

【专利技术属性】
技术研发人员:潘嘉王孟之万根顺刘聪刘庆峰
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1