语音识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32858242 阅读:12 留言:0更新日期:2022-03-30 19:33
本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对语音信号进行特征提取,得到语音信号特征;通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;基于调整后的所述语音语义信息生成语音识别文本。采用本方法能够提高语音识别的准确性。音识别的准确性。音识别的准确性。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,语音识别技术在通信、医疗、自动驾驶等领域得到广泛应用,通过语音识别技术可以通过说话者的语音信号识别出说话者的说话内容。但是,传统的语音识别技术只能识别标准的普通话,对于方言的识别效果较差,怎样准确的识别方言成为亟待解决的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够提高语音识别准确性的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0004]第一方面,本申请提供了一种语音识别方法。所述方法包括:
[0005]对语音信号进行特征提取,得到语音信号特征;
[0006]通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;
[0007]根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;
[0008]基于调整后的所述语音语义信息生成语音识别文本。
[0009]第二方面,本申请还提供了一种语音识别装置。所述装置包括:
[0010]提取模块,用于对语音信号进行特征提取,得到语音信号特征;
[0011]识别模块,用于通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;
[0012]调整模块,用于根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;
[0013]生成模块,用于基于调整后的所述语音语义信息生成语音识别文本。
[0014]在一个实施例中,所述提取模块,还用于:
[0015]对语音信号进行分帧处理,得到至少两个音频帧;
[0016]分别对所述至少两个音频帧进行预加重处理;
[0017]对预加重后的所述音频帧进行加窗处理;
[0018]从加窗后的所述音频帧中提取语音信号特征。
[0019]在一个实施例中,所述识别模块,还用于:
[0020]通过识别网络中的声学模型,根据所述语音信号特征确定所述语音信号对应的至少两个候选词序列;
[0021]通过所述识别网络中的语言模型,从所述至少两个候选词序列中选取目标词序列,并将所述目标词序列作为所述语音语义信息。
[0022]在一个实施例中,所述识别模块,还用于:
[0023]通过识别网络中的声学模型,对所述语音信号特征进行特征处理,得到所述语音信号中各音频帧对应的音素;
[0024]在发音词典中查询与所述音素匹配的文字;
[0025]对由所述文字组成的词语进行排列组合,得到所述语音信号对应的至少两个候选词序列。
[0026]在一个实施例中,所述识别模块,还用于:
[0027]通过所述识别网络中的语言模型对各所述候选词序列进行评分,得到各所述候选词序列对应的分值;
[0028]根据所述分值从所述至少两个候选词序列中选取目标词序列。
[0029]在一个实施例中,所述装置还包括:
[0030]所述提取模块,还用于对语音信号样本进行特征提取,得到语音信号样本特征;
[0031]处理模块,用于通过预训练的声学模型对所述语音信号样本特征进行特征处理,得到所述语音信号样本中各音频帧样本对应的音素样本;
[0032]确定模块,用于根据所述音素样本与音素标签确定损失值;
[0033]所述调整模块,还用于根据所述损失值对所述预训练的声学模型的参数进行调整,得到所述声学模型。
[0034]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0035]对语音信号进行特征提取,得到语音信号特征;
[0036]通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;
[0037]根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;
[0038]基于调整后的所述语音语义信息生成语音识别文本。
[0039]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0040]对语音信号进行特征提取,得到语音信号特征;
[0041]通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;
[0042]根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;
[0043]基于调整后的所述语音语义信息生成语音识别文本。
[0044]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0045]对语音信号进行特征提取,得到语音信号特征;
[0046]通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;
[0047]根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;
[0048]基于调整后的所述语音语义信息生成语音识别文本。
[0049]上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品,通过识别网
络对从语音信号中提取的语音信号特征进行语义识别,得到语音语义信息。根据对语音信号对应的说话者唇部图像进行唇语识别所得的唇语语义信息,对语音语义信息进行调整,基于调整后的语音语义信息生成语音识别文本。当说话者的语言为方言时,通过唇语语义信息对语音语义信息进行调整,使调整后的语音语义信息更加准确,从而能够更加准确的识别方言,提高了语音识别的准确性。
附图说明
[0050]图1为一个实施例中语音识别方法的应用环境图;
[0051]图2为一个实施例中语音识别方法的流程示意图;
[0052]图3为一个实施例中通过声学模型生成语音语义信息方法的流程示意图;
[0053]图4为一个实施例中通过声学模型得到候选词序列方法的流程示意图;
[0054]图5为另一个实施例中语音识别方法的流程示意图;
[0055]图6为一个实施例中语音识别装置的结构框图;
[0056]图7为另一个实施例中语音识别装置的结构框图;
[0057]图8为一个实施例中计算机设备的内部结构图;
[0058]图9为另一个实施例中计算机设备的内部结构图。
具体实施方式
[0059]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:对语音信号进行特征提取,得到语音信号特征;通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息;根据唇语语义信息对所述语音语义信息进行调整;所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的;基于调整后的所述语音语义信息生成语音识别文本。2.根据权利要求1所述的方法,其特征在于,所述对语音信号进行特征提取,得到语音信号特征包括:对语音信号进行分帧处理,得到至少两个音频帧;分别对所述至少两个音频帧进行预加重处理;对预加重后的所述音频帧进行加窗处理;从加窗后的所述音频帧中提取语音信号特征。3.根据权利要求1所述的方法,其特征在于,所述通过识别网络对所述语音信号特征进行语义识别,得到语音语义信息包括:通过识别网络中的声学模型,根据所述语音信号特征确定所述语音信号对应的至少两个候选词序列;通过所述识别网络中的语言模型,从所述至少两个候选词序列中选取目标词序列,并将所述目标词序列作为所述语音语义信息。4.根据权利要求3所述的方法,其特征在于,所述通过识别网络中的声学模型,根据所述语音信号特征确定所述语音信号对应的至少两个候选词序列包括:通过识别网络中的声学模型,对所述语音信号特征进行特征处理,得到所述语音信号中各音频帧对应的音素;在发音词典中查询与所述音素匹配的文字;对由所述文字组成的词语进行排列组合,得到所述语音信号对应的至少两个候选词序列。5.根据权利要求3所述的方法,其特征在于,所述通过所述识别网络中的语言模型,从所述至...

【专利技术属性】
技术研发人员:崔洋洋余俊澎
申请(专利权)人:游密科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1