语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号：37153028 阅读：16 留言：0更新日期：2023-04-06 22:11

本申请公开了一种语音识别方法、装置、设备及存储介质，本申请基于待识别语音得到由实体词类别标签及其余非实体词的字符组成的初步识别文本，进一步，基于实体词类别标签对应的语音片段和预设的发音词典及语言模型，得到实体词类别标签对应的实体词字符，由实体词字符替换掉初步识别文本中对应的实体词类别标签，得到最终的识别文本。在出现新的领域实体词时，只需要对发音词典和语言模型进行更新即可，无需对语音识别模型进行迭代更新，学习成本更低，且不会出现由于更新语音识别模型导致的灾难性遗忘问题，并且能够保证对新出现的领域实体词的识别准确度。域实体词的识别准确度。域实体词的识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质

[0001]本申请涉及语音识别
，更具体的说，是涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能和深度学习的发展，语音识别技术得到广泛使用，涵盖了人机交互的各个领域。领域语音识别的核心难题在于存在大量的领域专业实体词。领域专业实体词尤其是较低频词通常来说在语音识别模型的训练数据中较少出现，并且领域专业实体词汇是不断更新的，例如，在语音导航应用中，不断会有新的公司名称和地点名称出现。领域专业实体词的上述特点决定了在实际应用中，需要不断的对语音识别系统进行更新，以实现领域语音识别保持较高的准确率。
[0003]为了满足新出现的领域专业实体词的识别率要求，现有方法通常需要录制或者合成出包含领域专业实体词的语句对语音识别模型进行更新学习。示例如：首先，利用规则或者训练好的上下文扩展模型，根据当前领域实体词的文字构造大量不同的上下文文本。例如，一首新的歌曲A出现了之后，需要构造出“给我来一首A”，“我想听新歌A”等上下文文本。接着，利用语音合成模型合成上述文本对应的语音，并对语音做加噪、加混响、音色转换等数据增强操作。最后，利用上述语料，对当前语音识别模型进行更新迭代学习。得到的新模型通常可以提高新增领域实体词的识别准确率。
[0004]但是，上述处理方式也存在缺点，示例如：
[0005]第一，现有技术需要对语音识别模型进行不断的更新学习，因此整个过程费时费力，成本较高。
[0006]第二，现有技术对于新增领域实体词的识别...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待识别语音；基于所述待识别语音得到初步识别文本，所述初步识别文本包括实体词类别标签及其余非实体词的字符；基于所述待识别语音中所述实体词类别标签对应的语音片段和预设的发音词典及语言模型，得到所述实体词类别标签对应的实体词字符，由所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签，得到最终的识别文本。2.根据权利要求1所述的方法，其特征在于，基于待识别语音得到初步识别文本，以及，得到实体词类别标签对应的实体词字符，由所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签，得到最终的识别文本的过程，通过预配置的语音识别模型实现。3.根据权利要求1所述的方法，其特征在于，还包括：在获取到新增的领域实体词时，确定所述领域实体词对应的音节或音素，并将所述领域实体词与音节或音素的对应关系添加到所述预设的发音词典中，以及，将所述领域实体词添加到所述语言模型中。4.根据权利要求1所述的方法，其特征在于，所述语言模型为基于各领域实体词所构建的语言模型。5.根据权利要求2所述的方法，其特征在于，所述语音识别模型包括编码器、一级解码器、二级解码器及输出层；所述编码器，用于对输入的待识别语音进行编码，得到声学编码特征；所述一级解码器，用于以字符为建模单元，基于所述声学编码特征，解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本；所述二级解码器，用于以音节或音素为建模单元，基于实体词类别标签对应的语音片段的声学编码特征，解码得到实体词类别标签对应的音节或音素，并结合预设的发音词典及语言模型将音节或音素转换为字符，得到实体词类别标签对应的实体词字符；所述输出层，用于利用所述实体词字符替换掉所述初步识别文本中对应的实体词类别标签，得到最终输出的识别文本。6.根据权利要求5所述的方法，其特征在于，所述一级解码器，以字符为建模单元，基于所述声学编码特征，解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本的过程，包括：所述一级解码器以字符为建模单元，基于所述声学编码特征及一级解码器的实时状态特征，解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本。7.根据权利要求6所述的方法，其特征在于，所述一级解码器以字符为建模单元，基于所述声学编码特征及一级解码器的实时状态特征，解码得到由实体词类别标签及其余非实体词的字符组成的初步识别文本的过程，包括：一级解码器以字符为建模单元，以解码第t个字符时对每一帧声学编码特征的关注度为权重，对各帧声学编码特征进行加权求和，得到解码第t个字符时的声学编码特征c
t
，基于解码第t个字符时的声学编码特征c
t
及解码第t个字符时一级解码器的状态特征d
t
，解码第t个字符，直至全部解码后得到由实体词类别标签及其余非实体词的字符组成的初步识别文本。
8.根据权利要求5所述的方法，其特征在于，所述二级解码器以音节或音素为建模单元，基于实体词类别标签对应的语音片段的声学编码特征，解码得到实体词类别标签对应的音节或音素的过程，包括：二级解码器以音节或音素为建模单元，基于一级解码器解码实体词类别标签时的声学编码特征，解码得到实体词类别标签对应的音节或音素。9.根据权利要求5所述的方法，其特征在于，所述语音识别模型的训练过程，包括：获取训练语音及对应的识别文本，所述识别文本中标注有实体词的类别标签；利用实体词...

【专利技术属性】
技术研发人员：潘嘉，王孟之，万根顺，刘聪，刘庆峰，
申请(专利权)人：科大讯飞苏州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人