基于多模态语音识别结果纠错方法及相关设备技术

技术编号：31315485 阅读：11 留言：0更新日期：2021-12-12 23:48

本申请实施例提供了一种基于多模态语音识别结果纠错方法及相关设备，所述方法包括：采用声学模型和语言模型对用户的语音数据进行处理，获得多个第一候选识别结果以及对应的声学得分和语言得分；获得每个第一候选识别结果对应的权重得分；将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果。本发明专利技术可以有效地纠正语音识别结果的文本错误，尤其是针对谐音字的错误，可以得到有效纠正。以得到有效纠正。以得到有效纠正。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态语音识别结果纠错方法及相关设备

[0001]本申请涉及人工智能领域，特别涉及一种基于多模态语音识别结果纠错方法及相关设备。

技术介绍

[0002]基于人工智能的语音识别技术现已广泛应用在车载导航、智能家居、社交聊天、应用助手、娱乐游戏等多种场景中。语音识别技术能够实现自动识别用户输入的语音内容，将语音内容转换成对应的文本输出，大大提高了用户与终端交互的便利性。然而，在实际的语音交互过程中，由于用户发音不标准、噪音等因素的影响，使得语音识别的错误率较高。而现有技术都集中在提升语音识别准确率上，却缺乏对语音识别结果的纠错手段。以上原因，极大影响语音交互产品的推广。

技术实现思路

[0003]本申请的目的在于针对现有技术的不足，提供一种基于多模态语音识别结果纠错方法、装置、计算机设备和计算机可读存储介质，可以有效纠正语音识别结果的错误，对语音识别系统的用户体验有极大的改善。
[0004]第一方面，本申请提供了一种基于多模态语音识别结果纠错方法，所述方法包括：
[0005]获取语音数据；
[0006]采用声学模型和语言模型对所述语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；
[0007]针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分；
[0008]将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；
[00...

【技术保护点】

【技术特征摘要】
1.一种基于多模态语音识别结果纠错方法，其特征在于，所述方法包括：获取语音数据；采用声学模型和语言模型对所述语音数据进行处理，获得多个第一候选识别结果，以及获得每个第一候选识别结果分别对应的声学得分和语言得分；针对每个第一候选识别结果，分别进行声学得分和语言得分的加权计算，获得每个第一候选识别结果对应的权重得分；将权重得分最高的第一候选识别结果作为目标识别结果，并获取所述目标识别结果的文本序列向量；从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果，并获取声学得分最高的第一候选识别结果对应的拼音序列向量；将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果。2.根据权利要求1所述的方法，其特征在于，所述纠错模型包括输入层、全连接层和softmax层；所述将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型，以获得纠错识别结果，包括：将所述文本序列向量和所述拼音序列向量输入至所述输入层，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，以获得融合后的特征向量；将所述融合后的特征向量输入至所述全连接层，并经全连接层输入至所述softmax层，以获得由所述softmax层输出的纠错识别结果。3.根据权利要求2所述的方法，其特征在于，通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合，包括：通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。4.根据权利要求1所述的方法，其特征在于，所述获取所述目标识别结果的文本序列向量，包括：将所述目标识别结果的文本数据输入至预先训练好的BERT模型中，以获得所述文本数据的文本序列向量。5.根据权利要求1所述的方法，其特征在于，所述获取声学得分最高的第一候选识别结果对应的拼音序列向量，包括：获取声学得分最高的第一候选识别结果对应的拼音序列；将所述拼音序列输入至预先训练好的Tacotron2模型，以获得所述拼音序列向量。6.根据权利要求5所述的方法，其特征在于，在所述将所述...

【专利技术属性】
技术研发人员：庄子扬，魏韬，马骏，王少军，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人