语音识别解码方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:32584804 阅读:25 留言:0更新日期:2022-03-09 17:17
本申请公开一种语音识别解码方法、装置、存储介质及计算机设备。该方法包括:获取已构建完成的静态解码网络;在解码过程中,根据静态解码网络中已经遍历过的节点和出弧,确定激活节点和激活弧,以得到包含激活节点和激活弧的动态解码网络;当访问静态解码网络上的当前节点对应的第一激活节点时,控制第一激活节点进行一次blank弧的传播;当激活blank弧后,从第一激活节点出发沿blank弧进行传播时新建第二激活节点;根据与第二激活节点存在映射关系的静态解码网络上的当前节点的实弧,对第二激活节点进行传播;遍历静态解码网络上的所有节点,若访问到静态解码网络上的终止节点,则在终止节点上进行blank弧自跳,可以有效压缩解码网络,减少解码路径冗余。减少解码路径冗余。减少解码路径冗余。

【技术实现步骤摘要】
语音识别解码方法、装置、存储介质及计算机设备


[0001]本申请涉及语音信号处理
,具体涉及一种语音识别解码方法、装置、存储介质及计算机设备。

技术介绍

[0002]语音识别是一种通过一定的技术手段将一段音频转换成其所对应的文字的技术。当前的语音识别技术主要分为两个部分:声学计算、解码。一段音频分割成一连串语音帧,逐帧提取其特征向量后,声学模型依据该特征向量计算出其声学后验;在声学模型输出的一连串声学后验中结合语言模型(即解码网络)进行解码,解码的过程中搜索出一条最匹配的输出序列,该序列即为识别结果。
[0003]连接时序分类(Connectionist temporal classification,CTC)声学模型与传统的语音识别的声学模型相比,传统声学模型对于每一帧都会给出明确的声学后验,而CTC声学模型加入了一个空白音素(blank)状态,当某些帧的状态不能明确属于哪个音素状态时,用blank来表征这些状态不确定时的输出状态。
[0004]但是,目前的技术存在解码网络过大以及解码路径冗余的缺点。

技术实现思路

[0005]本申请实施例提供一种语音识别解码方法、装置、存储介质及计算机设备,可以有效压缩解码网络,以及减少解码路径冗余。
[0006]一方面,提供一种语音识别解码方法,所述方法包括:
[0007]获取已构建完成的静态解码网络;
[0008]在对目标语音数据进行解码的过程中,根据所述静态解码网络中已经遍历过的节点和已经遍历过的节点的出弧,确定激活节点和激活弧,以得到包含所述激活节点和所述激活弧的动态解码网络;
[0009]当访问所述静态解码网络上的当前节点对应的第一激活节点时,控制所述第一激活节点进行一次blank弧的传播,所述blank弧用于标记空白音素;
[0010]当激活所述blank弧后,从所述第一激活节点出发沿所述blank弧进行传播时,新建第二激活节点,其中,所述第一激活节点与所述第二激活节点映射所述静态解码网络上的当前节点;
[0011]根据与所述第二激活节点存在映射关系的所述静态解码网络上的当前节点的实弧,对所述第二激活节点进行传播,所述实弧用于标记所述当前节点的输出状态;
[0012]遍历所述静态解码网络上的所有节点,若访问到所述静态解码网络上的终止节点,则在所述终止节点上进行blank弧自跳。
[0013]可选的,所述当访问所述静态解码网络上的当前节点对应的第一激活节点时,控制所述第一激活节点进行一次blank弧的传播,包括:
[0014]当访问所述静态解码网络上的当前节点对应的第一激活节点时,根据所述当前节
点的实弧所携带的信息进行传播;
[0015]在访问完所述当前节点的所有实弧后,控制所述第一激活节点进行一次blank弧的传播,且在所述第一激活节点上记录所述第一激活节点是否沿着所述blank弧进行传播;
[0016]若所述第一激活节点上存在blank弧,则控制所述第一激活节点在所述blank弧传播后再进行空弧传播。
[0017]可选的,所述根据与所述第二激活节点存在映射关系的所述静态解码网络上的所述当前节点的实弧,对所述第二激活节点进行传播,包括:
[0018]当对所述第二激活节点进行传播时,寻找与所述第二激活节点存在映射关系的所述静态解码网络上的所述当前节点;
[0019]遍历所述静态解码网络上的所述当前节点的所有出弧,若所述当前节点的出弧中存在实弧,则将所述第二激活节点上的信息沿着所述实弧向所述当前节点的后驱节点进行传播。
[0020]可选的,所述遍历所述静态解码网络上的所述当前节点的所有出弧时,还包括:
[0021]若所述当前节点的所有出弧为空弧,则对所述第二激活节点不进行传播。
[0022]可选的,所述若访问到所述静态解码网络上的终止节点,则在所述终止节点上进行blank弧自跳,包括:
[0023]若访问到所述静态解码网络上没有出弧的节点,则将所述没有出弧的节点确定为所述静态解码网络上的终止节点;
[0024]当激活与所述终止节点连接的blank弧后,将所述终止节点确定为所述与所述终止节点连接的blank弧的后驱节点,以实现在所述终止节点上进行blank弧自跳。
[0025]可选的,在所述新建第二激活节点之后,还包括:
[0026]在所述第二激活节点上记录所述第二激活节点是否由所述blank弧传播产生。
[0027]可选的,所述方法还包括:
[0028]直到所述动态解码网络中包含所述静态解码网络中已经遍历过的所述终止节点对应的激活节点时,完成对所述目标语音数据的解码;
[0029]根据所述动态解码网络中的激活节点和激活弧,确定解码路径;
[0030]根据所述解码路径生成所述目标语音数据对应的语音识别结果。
[0031]另一方面,提供一种语音识别解码装置,所述装置包括:
[0032]获取单元,用于获取已构建完成的静态解码网络;
[0033]确定单元,用于在对目标语音数据进行解码的过程中,根据所述静态解码网络中已经遍历过的节点和已经遍历过的节点的出弧,确定激活节点和激活弧,以得到包含所述激活节点和所述激活弧的动态解码网络;
[0034]第一传播单元,用于当访问所述静态解码网络上的当前节点对应的第一激活节点时,控制所述第一激活节点进行一次blank弧的传播,所述blank弧用于标记空白音素;
[0035]新建单元,用于当激活所述blank弧后,从所述第一激活节点出发沿所述blank弧进行传播时,新建第二激活节点,其中,所述第一激活节点与所述第二激活节点映射所述静态解码网络上的当前节点;
[0036]第二传播单元,用于根据与所述第二激活节点存在映射关系的所述静态解码网络上的当前节点的实弧,对所述第二激活节点进行传播,所述实弧用于标记所述当前节点的
输出状态;
[0037]处理单元,用于遍历所述静态解码网络上的所有节点,若访问到所述静态解码网络上的终止节点,则在所述终止节点上进行blank弧自跳。
[0038]另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的语音识别解码方法中的步骤。
[0039]另一方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上任一实施例所述的语音识别解码方法中的步骤。
[0040]另一方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上任一实施例所述的语音识别解码方法中的步骤。
[0041]本申请实施例通过获取已构建完成的静态解码网络;在对目标语音数据进行解码的过程中,根据静态解码网络中已经遍历过的节点和已经遍历过的节点的出弧,确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别解码方法,其特征在于,所述方法包括:获取已构建完成的静态解码网络;在对目标语音数据进行解码的过程中,根据所述静态解码网络中已经遍历过的节点和已经遍历过的节点的出弧,确定激活节点和激活弧,以得到包含所述激活节点和所述激活弧的动态解码网络;当访问所述静态解码网络上的当前节点对应的第一激活节点时,控制所述第一激活节点进行一次blank弧的传播,所述blank弧用于标记空白音素;当激活所述blank弧后,从所述第一激活节点出发沿所述blank弧进行传播时,新建第二激活节点,其中,所述第一激活节点与所述第二激活节点映射所述静态解码网络上的当前节点;根据与所述第二激活节点存在映射关系的所述静态解码网络上的当前节点的实弧,对所述第二激活节点进行传播,所述实弧用于标记所述当前节点的输出状态;遍历所述静态解码网络上的所有节点,若访问到所述静态解码网络上的终止节点,则在所述终止节点上进行blank弧自跳。2.如权利要求1所述的语音识别解码方法,其特征在于,所述当访问所述静态解码网络上的当前节点对应的第一激活节点时,控制所述第一激活节点进行一次blank弧的传播,包括:当访问所述静态解码网络上的当前节点对应的第一激活节点时,根据所述当前节点的实弧所携带的信息进行传播;在访问完所述当前节点的所有实弧后,控制所述第一激活节点进行一次blank弧的传播,且在所述第一激活节点上记录所述第一激活节点是否沿着所述blank弧进行传播;若所述第一激活节点上存在blank弧,则控制所述第一激活节点在所述blank弧传播后再进行空弧传播。3.如权利要求1所述的语音识别解码方法,其特征在于,所述根据与所述第二激活节点存在映射关系的所述静态解码网络上的所述当前节点的实弧,对所述第二激活节点进行传播,包括:当对所述第二激活节点进行传播时,寻找与所述第二激活节点存在映射关系的所述静态解码网络上的所述当前节点;遍历所述静态解码网络上的所述当前节点的所有出弧,若所述当前节点的出弧中存在实弧,则将所述第二激活节点上的信息沿着所述实弧向所述当前节点的后驱节点进行传播。4.如权利要求3所述的语音识别解码方法,其特征在于,所述遍历所述静态解码网络上的所述当前节点的所有出弧时,还包括:若所述当前节点的所有出弧为空弧,则对所述第二激活节点不进行传播。5.如权利要求3所述的语音识别解码方法,其特征在于,所述若访问到所述静态解码网络上的终止节点,则在所述终止节点上进行blank弧自跳,包括:若访问到所述静态解码网...

【专利技术属性】
技术研发人员:费大勇陆梦寒
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1