一种语音识别的置信度估计方法、装置及计算机设备制造方法及图纸

技术编号:33204581 阅读:18 留言:0更新日期:2022-04-24 00:48
本发明专利技术公开了一种语音识别的置信度估计方法、装置及设备,包括:获取待估计语句;将待估计语句送入声学模型进行计算和解码,以获取待估计语句中每个音素对应声学模型状态的后验值;将音素的后验值送入预先构建的音素模糊矩阵,计算单音素置信度;根据单音素置信度计算待估计语句的置信度。本发明专利技术通过利用音素模糊矩阵,来进行单音素置信度的计算,以得到整体语音的置信度,解决了在现有的置信度计算方法中,存在计算置信度效果不理想、计算量大、影响准确率等问题。响准确率等问题。响准确率等问题。

【技术实现步骤摘要】
一种语音识别的置信度估计方法、装置及计算机设备


[0001]本专利技术涉及人工智能领域,尤其涉及一种语音识别的置信度估计方法、装置及计算机设备。

技术介绍

[0002]随着人工智能及语音识别技术的不断发展,以及提高人机交互效率的需求的日益增长,对语音识别的置信度提出了更高的要求。
[0003]置信度包括准确率和拒识能力,准确率是把人类说话发出的“语音”转换为对应形式的“文字”,拒识能力是对如噪音等的非预期输入进行识别及排除。
[0004]置信度可以反映识别结果的可靠程度,在语音识别的现有的置信度计算方法中,存在计算置信度效果不理想、计算量大、影响准确率等问题。

技术实现思路

[0005]本申请实施例通过提供一种语音识别的置信度估计方法、装置及计算机设备,解决了现有技术中语音识别中置信度计算效果不理想的问题。
[0006]第一方面,本申请实施例提供了一种语音识别的置信度估计方法,包括:
[0007]获取待估计语句;
[0008]将所述待估计语句送入声学模型进行计算和解码,以获取所述待估计语句中每个音素对应所述声学模型状态的后验值作为识别结果;
[0009]将所述音素的后验值送入预先构建的音素模糊矩阵,计算单音素置信度;
[0010]根据所述单音素置信度计算所述识别结果的置信度。
[0011]在其中一个实施例中,所述将所述待估计语句送入声学模型进行计算和解码,以获取所述待估计语句中每个音素对应所述声学模型状态的后验值,包括:
[0012]将所述待估计语句的语言信号分帧后转换成特征序列;
[0013]将所述特征序列中后验概率最大的词序列作为每个音素对应声学模型状态的后验值。
[0014]在其中一个实施例中,所述预先构建的音素模糊矩阵包括:所述音素模糊矩阵对于每一个音素选取与其相似度较高的音素作为其模糊音素。
[0015]在其中一个实施例中,所述计算单音素置信度,包括:
[0016]对所述每个音素及其所述模糊音素的后验值加权,所述加权系数为其模糊系数,得到所述每个音素对应的声学置信度。
[0017]在其中一个实施例中,所诉根据所述单音素置信度计算所述识别结果的置信度包括:
[0018]根据所述每个音素对应的声学置信度,计算所述识别结果的声学模型置信度;
[0019]根据所述识别结果的声学模型置信度,计算所述识别结果的语言模型置信度;
[0020]根据所述识别结果的语言模型置信度,计算所述识别结果的置信度。
[0021]在其中一个实施例中,所述计算所述识别结果的声学模型置信度包括:
[0022]基于每个音素对应的帧长加权其声学置信度计算得到所述识别结果的声学模型置信度。
[0023]在其中一个实施例中,所述计算所述识别结果的语言模型置信度包括:
[0024]对于所述识别结果,计算整个所述识别结果的语言模型的得分,并根据所述待估计语句的词组个数进行平均值计算,所述计算结果作为所述识别结果的语言模型置信度。
[0025]在其中一个实施例中,所述计算所述识别结果的置信度,包括:
[0026]加权计算所述声学模型置信度和所述语言模型置信度,作为所述识别结果的置信度。
[0027]本专利技术通过提供一种语音识别的置信度计算方法,通过利用音素模糊矩阵,计算出单音素的置信度,以此为基础,进行整体语句的置信度计算,解决了在现有语音识别的置信度计算方法中,存在计算置信度效果不理想、计算量大、影响准确率等问题,实现了提高语音识别置信度的计算效果、减缩了语音识别置信度计算的计算量,使语音识别置信度计算更便捷、准确以及高效。
[0028]第二方面,本专利技术提供一种语音识别的置信度估计装置,包括:
[0029]接收模块,所述接收模块用于获取所述待估计语句;
[0030]特征提取模块,所述特征提取模块用于将所述待估计语句送入声学模型进行计算和解码,以获取所述待估计语句中每个音素对应所述声学模型状态的后验值;
[0031]音素模糊模块,所述音素模糊模块将所述音素的后验值送入预先构建的音素模糊矩阵,计算单音素置信度;
[0032]计算模块,所述计算模块根据所述单音素置信度计算所述待估计语句的置信度。
[0033]第三方面,本专利技术提供一种计算机设备,所述计算机设备包括存储器和处理器;
[0034]所述存储器用于存储计算机程序;
[0035]所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如上述提供的任意一种语音识别的置信度检测方法。
附图说明
[0036]图1为本专利技术第一实施例提供的一种语音识别的置信度估计方法示意图;
[0037]图2为本专利技术第二实施例提供的一种语音识别的置信度估计方法的步骤S2的具体流程示意图;
[0038]图3为本专利技术第三实施例提供的一种语音识别的置信度估计方法的步骤S4的具体流程示意图;
[0039]图4为本专利技术提供的一种语音识别的置信度估计装置示意图;
[0040]图5为本专利技术提供的一种计算机设备结果示意性框图。
具体实施方式
[0041]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本申请保护的范围。
[0042]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0043]参阅图1所示,图1是本专利技术第一实施例提供的一种语音识别的置信度估计方法示意图。
[0044]本专利技术提供提供一种语音识别的置信度估计方法,包括以下步骤:
[0045]步骤S1:获取待估计语句;
[0046]具体地,待估计语句是需要进行置信度估计的语句,这种语句通常是人声。
[0047]更具体地,当有人说话发出人声时,就会产生待估计语句,待估计语句将由接收人声的设备进行获取,可以理解的是,这里不限制获取待估计语句的设备。
[0048]步骤S2:将待估计语句送入声学模型进行计算和解码,以获取待估计语句中每个音素对应声学模型状态的后验值作为识别结果;
[0049]具体地,在解码步骤中,除了需要用到声学模型,还需要用到语言模型和发音词典;声学模型和语言模型是从大量的训练数据集中得到的统计模型;发音词典描述了每个词对应的音素序列;解码过程就是在声学模型,语言模型和发音辞典的约束下,将音频特征后验概率最大的词序列作为解码的识别结果,即对每个音素对应声学模型状态的后验值进行计算和记录。
[0050]步骤S3:将音素的后验值送入预先构建的音素模糊矩阵,计算单音素置信度;...

【技术保护点】

【技术特征摘要】
1.一种语音识别的置信度估计方法,其特征在于,包括:获取待估计语句;将所述待估计语句送入声学模型进行计算和解码,以获取所述待估计语句中每个音素对应所述声学模型状态的后验值作为识别结果;将所述音素的后验值送入预先构建的音素模糊矩阵,计算单音素置信度;根据所述单音素置信度计算所述识别结果的置信度。2.如权利要求1所述的一种基于音素模糊的置信度估计方法,其特征在于,所述将所述待估计语句送入声学模型进行计算和解码,以获取所述待估计语句中每个音素对应所述声学模型状态的后验值,包括:将所述待估计语句的语言信号分帧后转换成特征序列;将所述特征序列中后验概率最大的词序列作为每个音素对应声学模型状态的后验值。3.如权利要求1所述的一种基于音素模糊的置信度估计方法,其特征在于,所述预先构建的音素模糊矩阵包括:所述音素模糊矩阵对于每一个音素选取与其相似度较高的音素作为其模糊音素。4.如权利要求3所述的一种基于音素模糊的置信度估计方法,其特征在于,所述计算单音素置信度,包括:对所述每个音素及其所述模糊音素的后验值加权,所述加权系数为其模糊系数,得到所述每个音素对应的声学置信度。5.如权利要求4所述的一种基于音素模糊的置信度估计方法,其特征在于,所诉根据所述单音素置信度计算所述识别结果的置信度包括:根据所述每个音素对应的声学置信度,计算所述识别结果的声学模型置信度;根据所述识别结果的声学模型置信度,计算所述识别结果的语言模型置信度;根据所述识别结果的语言模型置信度,计算所述识别结...

【专利技术属性】
技术研发人员:张钰辉赵茂详李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1