语音识别解码方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：32584804 阅读：25 留言：0更新日期：2022-03-09 17:17

本申请公开一种语音识别解码方法、装置、存储介质及计算机设备。该方法包括：获取已构建完成的静态解码网络；在解码过程中，根据静态解码网络中已经遍历过的节点和出弧，确定激活节点和激活弧，以得到包含激活节点和激活弧的动态解码网络；当访问静态解码网络上的当前节点对应的第一激活节点时，控制第一激活节点进行一次blank弧的传播；当激活blank弧后，从第一激活节点出发沿blank弧进行传播时新建第二激活节点；根据与第二激活节点存在映射关系的静态解码网络上的当前节点的实弧，对第二激活节点进行传播；遍历静态解码网络上的所有节点，若访问到静态解码网络上的终止节点，则在终止节点上进行blank弧自跳，可以有效压缩解码网络，减少解码路径冗余。减少解码路径冗余。减少解码路径冗余。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别解码方法、装置、存储介质及计算机设备

[0001]本申请涉及语音信号处理
，具体涉及一种语音识别解码方法、装置、存储介质及计算机设备。

技术介绍

[0002]语音识别是一种通过一定的技术手段将一段音频转换成其所对应的文字的技术。当前的语音识别技术主要分为两个部分：声学计算、解码。一段音频分割成一连串语音帧，逐帧提取其特征向量后，声学模型依据该特征向量计算出其声学后验；在声学模型输出的一连串声学后验中结合语言模型(即解码网络)进行解码，解码的过程中搜索出一条最匹配的输出序列，该序列即为识别结果。
[0003]连接时序分类(Connectionist temporal classification，CTC)声学模型与传统的语音识别的声学模型相比，传统声学模型对于每一帧都会给出明确的声学后验，而CTC声学模型加入了一个空白音素(blank)状态，当某些帧的状态不能明确属于哪个音素状态时，用blank来表征这些状态不确定时的输出状态。
[0004]但是，目前的技术存在解码网络过大以及解码路径冗余的缺点。

技术实现思路

[0005]本申请实施例提供一种语音识别解码方法、装置、存储介质及计算机设备，可以有效压缩解码网络，以及减少解码路径冗余。
[0006]一方面，提供一种语音识别解码方法，所述方法包括：
[0007]获取已构建完成的静态解码网络；
[0008]在对目标语音数据进行解码的过程中，根据所述静态解码网络中已经遍历过的节点和已经遍历过的节点的出弧，确定...

【技术保护点】

【技术特征摘要】
1.一种语音识别解码方法，其特征在于，所述方法包括：获取已构建完成的静态解码网络；在对目标语音数据进行解码的过程中，根据所述静态解码网络中已经遍历过的节点和已经遍历过的节点的出弧，确定激活节点和激活弧，以得到包含所述激活节点和所述激活弧的动态解码网络；当访问所述静态解码网络上的当前节点对应的第一激活节点时，控制所述第一激活节点进行一次blank弧的传播，所述blank弧用于标记空白音素；当激活所述blank弧后，从所述第一激活节点出发沿所述blank弧进行传播时，新建第二激活节点，其中，所述第一激活节点与所述第二激活节点映射所述静态解码网络上的当前节点；根据与所述第二激活节点存在映射关系的所述静态解码网络上的当前节点的实弧，对所述第二激活节点进行传播，所述实弧用于标记所述当前节点的输出状态；遍历所述静态解码网络上的所有节点，若访问到所述静态解码网络上的终止节点，则在所述终止节点上进行blank弧自跳。2.如权利要求1所述的语音识别解码方法，其特征在于，所述当访问所述静态解码网络上的当前节点对应的第一激活节点时，控制所述第一激活节点进行一次blank弧的传播，包括：当访问所述静态解码网络上的当前节点对应的第一激活节点时，根据所述当前节点的实弧所携带的信息进行传播；在访问完所述当前节点的所有实弧后，控制所述第一激活节点进行一次blank弧的传播，且在所述第一激活节点上记录所述第一激活节点是否沿着所述blank弧进行传播；若所述第一激活节点上存在blank弧，则控制所述第一激活节点在所述blank弧传播后再进行空弧传播。3.如权利要求1所述的语音识别解码方法，其特征在于，所述根据与所述第二激活节点存在映射关系的所述静态解码网络上的所述当前节点的实弧，对所述第二激活节点进行传播，包括：当对所述第二激活节点进行传播时，寻找与所述第二激活节点存在映射关系的所述静态解码网络上的所述当前节点；遍历所述静态解码网络上的所述当前节点的所有出弧，若所述当前节点的出弧中存在实弧，则将所述第二激活节点上的信息沿着所述实弧向所述当前节点的后驱节点进行传播。4.如权利要求3所述的语音识别解码方法，其特征在于，所述遍历所述静态解码网络上的所述当前节点的所有出弧时，还包括：若所述当前节点的所有出弧为空弧，则对所述第二激活节点不进行传播。5.如权利要求3所述的语音识别解码方法，其特征在于，所述若访问到所述静态解码网络上的终止节点，则在所述终止节点上进行blank弧自跳，包括：若访问到所述静态解码网...

【专利技术属性】
技术研发人员：费大勇，陆梦寒，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人