基于多模态语音识别结果纠错方法及相关设备技术

技术编号:31315485 阅读:11 留言:0更新日期:2021-12-12 23:48
本申请实施例提供了一种基于多模态语音识别结果纠错方法及相关设备,所述方法包括:采用声学模型和语言模型对用户的语音数据进行处理,获得多个第一候选识别结果以及对应的声学得分和语言得分;获得每个第一候选识别结果对应的权重得分;将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果。本发明专利技术可以有效地纠正语音识别结果的文本错误,尤其是针对谐音字的错误,可以得到有效纠正。以得到有效纠正。以得到有效纠正。

【技术实现步骤摘要】
基于多模态语音识别结果纠错方法及相关设备


[0001]本申请涉及人工智能领域,特别涉及一种基于多模态语音识别结果纠错方法及相关设备。

技术介绍

[0002]基于人工智能的语音识别技术现已广泛应用在车载导航、智能家居、社交聊天、应用助手、娱乐游戏等多种场景中。语音识别技术能够实现自动识别用户输入的语音内容,将语音内容转换成对应的文本输出,大大提高了用户与终端交互的便利性。然而,在实际的语音交互过程中,由于用户发音不标准、噪音等因素的影响,使得语音识别的错误率较高。而现有技术都集中在提升语音识别准确率上,却缺乏对语音识别结果的纠错手段。以上原因,极大影响语音交互产品的推广。

技术实现思路

[0003]本申请的目的在于针对现有技术的不足,提供一种基于多模态语音识别结果纠错方法、装置、计算机设备和计算机可读存储介质,可以有效纠正语音识别结果的错误,对语音识别系统的用户体验有极大的改善。
[0004]第一方面,本申请提供了一种基于多模态语音识别结果纠错方法,所述方法包括:
[0005]获取语音数据;
[0006]采用声学模型和语言模型对所述语音数据进行处理,获得多个第一候选识别结果,以及获得每个第一候选识别结果分别对应的声学得分和语言得分;
[0007]针对每个第一候选识别结果,分别进行声学得分和语言得分的加权计算,获得每个第一候选识别结果对应的权重得分;
[0008]将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;
[0009]从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;
[0010]将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果。
[0011]根据本申请的一些实施例,上述方案中,所述纠错模型包括输入层、全连接层和softmax层;
[0012]所述将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果,包括:
[0013]将所述文本序列向量和所述拼音序列向量输入至所述输入层,通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合,以获得融合后的特征向量;
[0014]将所述融合后的特征向量输入至所述全连接层,并经全连接层输入至所述softmax层,以获得由所述softmax层输出的纠错识别结果。
[0015]根据本申请的一些实施例,上述方案中,通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合,包括:
[0016]通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。
[0017]根据本申请的一些实施例,上述方案中,所述获取所述目标识别结果的文本序列向量,包括:
[0018]将所述目标识别结果的文本数据输入至预先训练好的BERT模型中,以获得所述文本数据的文本序列向量。
[0019]根据本申请的一些实施例,上述方案中,所述获取声学得分最高的第一候选识别结果对应的拼音序列向量,包括:
[0020]获取声学得分最高的第一候选识别结果对应的拼音序列;
[0021]将所述拼音序列输入至预先训练好的Tacotron2模型,以获得所述拼音序列向量。
[0022]根据本申请的一些实施例,上述方案中,在所述将所述拼音序列输入至预先训练好的Tacotron2模型之前,所述方法还包括:
[0023]构建拼音序列样本集,所述拼音序列样本集包括多个拼音序列样本;
[0024]获取每个所述拼音序列样本对应的普通话发音的梅尔谱特征,得到多个梅尔谱序列向量;
[0025]根据多个所述拼音序列样本和多个所述梅尔谱序列向量,对Tacotron2模型进行训练,以获得训练好的Tacotron2模型。
[0026]根据本申请的一些实施例,上述方案中,在所述获得纠错识别结果之后,还包括:将所述纠错识别结果替换所述目标识别结果,以将所述纠错识别结果作为最终识别结果。
[0027]第二方面,本申请提供了一种基于多模态语音识别结果纠错装置,所述装置包括:
[0028]获取模块,用于获取语音数据;
[0029]第一处理模块,用于采用声学模型和语言模型对所述语音数据进行处理,获得多个第一候选识别结果,以及获得每个第一候选识别结果分别对应的声学得分和语言得分;
[0030]第二处理模块,用于针对每个第一候选识别结果,分别进行声学得分和语言得分的加权计算,获得每个第一候选识别结果对应的权重得分;
[0031]第三处理模块,用于将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;
[0032]第四处理模块,用于从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;
[0033]纠错模块,将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果。
[0034]第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如上第一方面描述的任一项所述方法的步骤。
[0035]第四方面,本申请还提供了一种计算机可读存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上第一方面描述的任一项所述方法的步骤。
[0036]本申请实施例所提供的技术方案具有如下的有益效果:
[0037]本申请实施例,采用声学模型和语言模型对用户的语音数据进行处理,获得多个第一候选识别结果,以及获得每个第一候选识别结果分别对应的声学得分和语言得分;针对每个第一候选识别结果,分别进行声学得分和语言得分的加权计算,获得每个第一候选识别结果对应的权重得分;将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以进而获得纠错识别结果。本申请实施例采用多模态特征融合的方法,融合声学得分最高的结果对应的拼音序列向量特征和目标识别结果的文本序列向量特征进行纠错,可以有效地纠正语音识别结果的文本错误,尤其是针对谐音字的错误,可以得到有效纠正。本申请实施例的技术方案由于利用了声学特征进行纠错,因而可以提高纠错的召回率,以及降低误纠率,,对整体语音识别准确率的提升有显著的有益效果。
附图说明
[0038]图1是本申请实施例提供的一种基于多模态语音识别结果纠错方法的流程示意图;
[0039]图2是图1中步骤S150的子步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态语音识别结果纠错方法,其特征在于,所述方法包括:获取语音数据;采用声学模型和语言模型对所述语音数据进行处理,获得多个第一候选识别结果,以及获得每个第一候选识别结果分别对应的声学得分和语言得分;针对每个第一候选识别结果,分别进行声学得分和语言得分的加权计算,获得每个第一候选识别结果对应的权重得分;将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果。2.根据权利要求1所述的方法,其特征在于,所述纠错模型包括输入层、全连接层和softmax层;所述将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果,包括:将所述文本序列向量和所述拼音序列向量输入至所述输入层,通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合,以获得融合后的特征向量;将所述融合后的特征向量输入至所述全连接层,并经全连接层输入至所述softmax层,以获得由所述softmax层输出的纠错识别结果。3.根据权利要求2所述的方法,其特征在于,通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合,包括:通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。4.根据权利要求1所述的方法,其特征在于,所述获取所述目标识别结果的文本序列向量,包括:将所述目标识别结果的文本数据输入至预先训练好的BERT模型中,以获得所述文本数据的文本序列向量。5.根据权利要求1所述的方法,其特征在于,所述获取声学得分最高的第一候选识别结果对应的拼音序列向量,包括:获取声学得分最高的第一候选识别结果对应的拼音序列;将所述拼音序列输入至预先训练好的Tacotron2模型,以获得所述拼音序列向量。6.根据权利要求5所述的方法,其特征在于,在所述将所述...

【专利技术属性】
技术研发人员:庄子扬魏韬马骏王少军肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1