语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号：26602174 阅读：24 留言：0更新日期：2020-12-04 21:25

本申请提供了一种语音识别方法、装置、设备及存储介质，涉及数据处理技术领域。其中，该方法包括：对输入语音进行分析，得到输入语音的语速信息；根据语速信息，得到输入语音的估算字符数量；根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。通过在语音识别过程中引入语速识别，确定输入语音的估算字符数量，并根据输入语音的估算字符数量确定语音识别结束点，从而有效提高了得到的语音识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
本申请涉及数据处理
，具体而言，涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
近年来，随着深度神经网络的应用，语音识别的性能得到了极大的提高。然而，搭建一套语音识别系统仍然是一项富有挑战性的工作，因为一套语音识别系统需要各种知识源信息、专家知识和多种训练阶段。然而，随着端到端(End-to-End)语音识别的提出，语音识别系统可以由两个神经网络组成的编码器和解码器组成，其搭建过程大大简化，回归到直接训练神经网络的过程，而无需提供复杂的知识源和专家知识；所有信息都可以由网络从训练数据中自动学习得到。然而端到端语音识别是输出同步的，这意味着识别过程没有明确的结束点，或者说即使有结束标志，也是不准确的结束标志。从而导致语音识别结果准确性较差。
技术实现思路
有鉴于此，本申请实施例的目的在于提供一种语音识别方法、装置、设备及存储介质，能够通过引入语速识别，确定待识别语音的字符数量，进而结合字符数量，进行语音识别，解决现有技术中存在的语音识别结果准确性较差的问题。为实现上述目的，本申请实施例采用的技术方案如下：第一方面，本申请实施例提供了一种语音识别方法，包括：对输入语音进行分析，得到所述输入语音的语速信息；根据所述语速信息，得到所述输入语音的估算字符数量；根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果。可选地，所述根据所述语速信息，得到所述输...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：/n对输入语音进行分析，得到所述输入语音的语速信息；/n根据所述语速信息，得到所述输入语音的估算字符数量；/n根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
对输入语音进行分析，得到所述输入语音的语速信息；
根据所述语速信息，得到所述输入语音的估算字符数量；
根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述语速信息，得到所述输入语音的估算字符数量，包括：
根据所述语速信息、以及所述输入语音的语音时长，得到所述输入语音的估算字符数量。

3.根据权利要求2所述的方法，其特征在于，所述语速信息为：所述语音时长内预设时间段的各个时间点的语速信息；所述根据所述语速信息、以及所述输入语音的语音时长，得到所述输入语音的估算字符数量，包括：
根据所述各个时间点的语速信息，确定所述预设时间段内的平均语速信息作为所述输入语音在所述语音时长内的平均语速信息；
根据所述平均语速信息、以及所述语音时长，得到所述输入语音的估算字符数量。

4.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括：编码器和解码器；所述根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果，包括：
采用所述编码器对所述输入语音进行编码处理；
采用所述解码器对编码处理后的语音进行解码处理，并根据所述解码器的解码字符数量和所述估算字符数量，确定是否满足所述解码器的解码结束条件；
若满足所述解码结束条件，则确定所述满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。

5.根据权利要求4所述的方法，其特征在于，所述采用所述解码器对编码处理后的语音进行解码处理，并根据所述解码器的解码字符数量和所述估算字符数量，确定是否满足所述解码器的解码结束条件，包括：
采用所述解码器对编码处理后的语音中的字符进行解码处理，得到所述字符的至少一个解码路径，每个解码路径为包括至少一个识别字符的识别结果；
根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重，得到所述每个解码路径的...

【专利技术属性】
技术研发人员：韩阳，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人