语音识别方法和装置、服务器、计算机可读存储介质制造方法及图纸

技术编号：28456715 阅读：26 留言：0更新日期：2021-05-15 21:20

本申请涉及一种语音识别方法和装置、服务器、计算机可读存储介质，包括：对待处理的语音数据进行声学特征提取，将所提取的声学特征输入声学模型，计算声学特征的声学模型得分。采用主解码网络及子解码网络，对声学特征及声学特征的声学模型得分进行解码得到语音识别结果。该语音识别方法，并未对待识别场景重新训练解码网络，而是对待识别场景中的目标命名实体进行训练得到子解码图，再采用主解码网络及子解码网络进行解码得到语音识别结果。所以，针对待识别场景中的目标命名实体，基于子解码网络就可以对目标命名实体进行准确地解码。且因为未对待识别场景重新训练解码网络，所以大大缩短训练时间长，提高语音识别效率。提高语音识别效率。提高语音识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法和装置、服务器、计算机可读存储介质

[0001]本申请涉及自然语言处理
，特别是涉及一种语音识别方法和装置、服务器、计算机可读存储介质。

技术介绍

[0002]随着人工智能和自然语言处理技术的不断发展，语音识别技术也得到了快速地发展。采用语音识别技术可以自动将音频信号转变为相应的文本或命令。传统的语音识别技术可以应用在普通的、日常的语音识别场景中，并取得较好的识别效果。
[0003]但是，当应用于专业场景下时，由于专业场景下包含大量的专业词汇，所以采用传统的语音识别技术，识别效果较差。而如果专门针对该专业场景重新训练解码网络进行语音识别，显然，重新训练解码图的工作量较大、训练时间长、无法快速实现。

技术实现思路

[0004]本申请实施例提供一种语音识别方法、装置、服务器、计算机可读存储介质，可以在针对特定应用场景下进行语音识别时，减小重新训练解码图的工作量、并大大缩短训练时间长，提高语音识别的效率。
[0005]一种语音识别方法，包括：
[0006]对待处理的语音数据进行声学特征提取；
[0007]将所提取的声学特征输入声学模型，计算所述声学特征的声学模型得分；
[0008]采用主解码网络及子解码网络，对所述声学特征及所述声学特征的声学模型得分进行解码得到语音识别结果；所述主解码网络为对原始文本训练语料进行训练所得的解码图，所述子解码图为对待识别场景中的目标命名实体进行训练所得的解码图。
[0009]一种语音识别装置，所述装置包括：r/>[0010]声学特征提取模块，用于对待处理的语音数据进行声学特征提取；
[0011]声学模型得分计算模块，用于将所提取的声学特征输入声学模型，计算所述声学特征的声学模型得分；
[0012]解码模块，用于采用主解码网络及子解码网络，对所述声学特征及所述声学特征的声学模型得分进行解码得到语音识别结果；所述主解码网络为对原始文本训练语料进行训练所得的解码图，所述子解码图为对待识别场景中的目标命名实体进行训练所得的解码图。
[0013]一种服务器，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上方法的步骤。
[0014]一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上方法的步骤。
[0015]上述语音识别方法、装置、服务器、计算机可读存储介质，对待处理的语音数据进行声学特征提取，将所提取的声学特征输入声学模型，计算声学特征的声学模型得分。采用
主解码网络及子解码网络，对声学特征及声学特征的声学模型得分进行解码得到语音识别结果。由于子解码网络为对待识别场景中的目标命名实体进行训练所得的解码网络。该语音识别方法，并未对待识别场景重新训练解码网络，而是对待识别场景中的目标命名实体进行训练得到子解码网络，再采用主解码网络及子解码网络，对声学特征及声学特征的声学模型得分进行解码得到语音识别结果。所以，针对待识别场景中的目标命名实体，基于子解码网络就可以对目标命名实体进行准确地解码。且因为未对待识别场景重新训练解码网络，所以大大缩短训练时间长，提高语音识别效率。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017]图1为一个实施例中语音识别方法的应用场景图；
[0018]图2为一个实施例中语音识别方法的流程图；
[0019]图3为一个实施例中主解码网络生成方法的流程图；
[0020]图4为一个实施例中主解码网络的部分结构示意图；
[0021]图5为一个实施例中子解码网络生成方法的流程图；
[0022]图6为一个实施例中语音识别网格lattice的结构示意图；
[0023]图7为一个实施例中采用主解码网络及子解码网络进行解码，得到语音识别网格lattice方法的流程图；
[0024]图8为一个实施例中采用主解码网络及子解码网络进行解码，得到语音识别网格lattice的示意图；
[0025]图9为一个实施例中基于语音识别网格lattice得到语音识别结果方法的流程图；
[0026]图10为一个实施例中语音识别装置的结构框图；
[0027]图11为另一个实施例中语音识别装置的结构框图；
[0028]图12为一个实施例中服务器的内部结构示意图。
具体实施方式
[0029]为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。
[0030]可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
[0031]图1为一个实施例中语音识别方法的应用场景图。如图1所示，该应用环境包括终端120和服务器140，该终端120与服务器140之间通过网络连接。服务器140通过本申请中的语音识别方法，对待处理的语音数据进行声学特征提取；将所提取的声学特征输入声学模型，计算声学特征的声学模型得分；采用主解码网络及子解码网络，对声学特征及声学特征的声学模型得分进行解码得到语音识别结果；主解码网络为对原始文本训练语料进行训练
所得的解码图，子解码图为对待识别场景中的目标命名实体进行训练所得的解码图。这里，终端120可以是手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、车载电脑、穿戴式设备、智能家居等任意终端设备。
[0032]图2为一个实施例中语音识别方法的流程图，如图2所示，提供了一种语音识别方法，应用于服务器，包括步骤220至步骤260。其中，
[0033]步骤220，对待处理的语音数据进行声学特征提取。
[0034]其中，语音数据可以是指所获取到的音频信号。具体可以是在语音输入场景、智能聊天场景、语音翻译场景中所获取到的音频信号。对待处理的语音数据进行声学特征提取。声学特征提取的具体过程可以是：将获取到的一维音频信号，通过特征提取算法转化为一组高维向量。所得到的高维向量即为声学特征，常见的声学特征有MFCC，Fbank，ivector等，本申请对此不做限定。Fbank(FilterBank)就是一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。其中，获得语音信号的Fbank特征的一般步骤是：预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等。且通过对Fbank做离散余弦变换(DCT)即可获得MFCC特征。
[0035]其中，MFCC(本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：对待处理的语音数据进行声学特征提取；将所提取的声学特征输入声学模型，计算所述声学特征的声学模型得分；采用主解码网络及子解码网络，对所述声学特征及所述声学特征的声学模型得分进行解码得到语音识别结果；所述主解码网络为对原始文本训练语料进行训练所得的解码图，所述子解码图为对待识别场景中的目标命名实体进行训练所得的解码图。2.根据权利要求1所述的方法，其特征在于，所述主解码网络的生成过程，包括：对所述原始文本训练语料中的命名实体进行挖空处理，得到目标文本训练语料；对所述目标文本训练语料进行训练得到语言模型；对与所述原始文本训练语料对应的语音训练语料进行训练，得到声学模型；将所述语言模型与所述声学模型进行结合得到主解码网络，所述主解码网络中包括空节点，所述空节点对应于所述目标文本训练语料中的挖空位置。3.根据权利要求2所述的方法，其特征在于，所述将所述语言模型与所述声学模型进行结合得到主解码网络，包括：采用compose算法将所述语言模型与所述声学模型进行结合得到主解码网络。4.根据权利要求2所述的方法，其特征在于，所述子解码网络的生成过程，包括：采集待识别场景中的目标命名实体构成目标命名实体文本；对所述目标命名实体文本赋予语言模型得分；将赋予语言模型得分的所述目标命名实体文本与所述声学模型进行结合得到子解码网络。5.根据权利要求1所述的方法，其特征在于，所述采用主解码网络及子解码网络，对所述声学特征及所述声学特征的声学模型得分进行解码得到语音识别结果，包括：采用所述主解码网络及所述子解码网络，对所述声学特征及所述声学特征的声学模型得分进行解码，得到语音识别网格lattice；基于所述语音识别网格lattice得到语音识别结果。6.根据权利要求5所述的方法，其特征在于，所述语音识别网格lattice包括多条词序列，所述词序列包括节点与跳转边，所述跳转边携带了所述声学特征的词信息；所述采用主解码网络及子解码网络，对所述声学特征及所述声学特征的声学模型得分进行解码，得到语音识别网格lattice，包括：从所述主解码网络中依次获取所述语音数据中各所述声学特征对应的词序列；若所述词序列的中间节点的跳转边上的词信息为空，则调用所述子解码网络，从所述子解码网络中获取所述音频信号中下一个...

【专利技术属性】
技术研发人员：周维聪，袁丁，赵金昊，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人