一种基于深度学习的语音识别和人机交互系统及方法技术方案

技术编号：43435892 阅读：12 留言：0更新日期：2024-11-27 12:43

本发明专利技术涉及语音识别的技术领域，公开了一种基于深度学习的语音识别和人机交互系统及方法。本发明专利技术首先获取初始语音信号，对初始语音信号进行预处理，得到处理后的语音信号；其次根据处理后的语音信号得到时域信号，根据时域信号计算得到帧的能量集合、梅尔倒谱系数集合和二阶差分集合，组成梅尔倒谱系数特征集合；再训练CNN神经网络和RNN神经网络分别得到声学模型和语言模型，对语音进行识别；根据语音识别结果生成初始语音识别文本，对初始语音识别文本进行预处理和词向量转换，计算相似度，最后根据相似度输出回复文本，实现人机交互。本发明专利技术通过对语音信号进行处理达到语音识别和人机交互目的，方法客观且准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别的，具体为一种基于深度学习的语音识别和人机交互系统及方法。

技术介绍

1、中国专利cn109410957b公开了基于计算机视觉辅助的正面人机交互语音识别方法及系统，具体包括获取同一时间的视频片段和音频片段，对所述视频片段进行人脸识别，得到当前说话人状态、身份、位置以及说话人嘴唇位置，并对说话人嘴唇位置进行判断；根据说话人位置进行音频方位判断，结合说话人的音频方位对音频进行预处理；再识别说话人嘴唇位置判断当前说话人是否停止讲话，并累加当前说话人的视频和音频片段，对当前说话人的视频和音频片段进行语音识别，输出语音识别结果；如果需要再进行语音识别，则将语音再次累加到当前说话人的视频和音频片段中，重复输出语音识别结果。该专利技术直接对语音进行识别，结果存在误差。

2、传统的语音识别方法，通过对说话进行录制得到录制语音片段，直接对录制语音片段进行识别，识别过程存在识别效率低、不能智能识别等问题，并且没有关联人机交互，用户不能实时参与到识别过程中，也不使用深度学习等高新技术，语音识别结果准确性和实时性差。

技术实现思路

1、针对相关技术中的问题，本专利技术提供了一种基于深度学习的语音识别和人机交互系统及方法，以克服现有相关技术所存在的上述技术问题。

2、为解决上述技术问题，本专利技术是通过以下技术方案实现的：

3、本专利技术为一种基于深度学习的语音识别和人机交互方法，包括如下步骤：

4、s1、获取语音音频，生成初始语音信号，

5、s2、对所述处理后的语音信号进行短时傅里叶变换，得到时域信号，基于时域信号计算得到帧的能量集合、梅尔倒谱系数集合和二阶差分集合，结合帧的能量集合、梅尔倒谱系数集合和二阶差分集合组成梅尔倒谱系数特征集合；

6、s3、训练cnn神经网络和rnn神经网络，分别得到cnn神经网络模型和rnn神经网络模型，将cnn神经网络模型作为声学模型，将rnn神经网络模型作为语言模型，所述梅尔倒谱系数特征集合基于声学模型和语言模型进行语音识别，得到语音识别结果；

7、s4、根据所述语音识别结果生成初始语音识别文本，对初始语音识别文本进行预处理和词向量转换，得到语音识别词向量，根据语音识别词向量计算相似度，通过比较相似度输出回复文本，实现人机交互。

8、该专利技术通过获取语音音频，生成初始语音信号，对所述初始语音信号进行语音信号预加重处理，使语音信号在频域范围内平滑，再进行语音信号分帧加窗处理，将语音信号进行标准化分割，有效解决了语音信号丢失问题，再对语音信号进行降噪，减少噪音干扰和误差，最后经过端点检测处理后，划分静音段和非静音段，可以保留有效处理部分，提高处理效率；其次，将处理后的语音信号转化为时域信号，基于梅尔滤波器进行离散余弦变换输出得到梅尔倒谱系数，再计算帧的能量和二阶差分组成梅尔倒谱系数特征；该方法通过提取语音信号的音色信息，可以提高识别的准确性和鲁棒性；再训练cnn神经网络作为声学模型，训练rnn神经网络作为语言模型，组合成语音识别模型，将梅尔倒谱系数特征输入到语音识别模型进行语音识别；结合cnn神经网络和rnn神经网络可以有效进行音素识别匹配，识别准确率高；最后根据语音识别结果生成语音识别文本，对语音识别文本进行分词和词向量转化，使用训练模型有效提高计算效率；通过匹配相似度最高的文本作为回复文本进行回答，实现人机交互。

9、优选地，所述s1包括以下步骤：

10、s11、获取一段语音音频，对语音音频进行量化和采集，得到语音音频数字信号，并将所述语音音频数字信号按照帧划分，得到初始语音信号，其中 b表示帧数；将所述初始语音信号通过滤波器，通过滤波器的传递函数处理后，得到预加重后的语音信号，计算公式如下：

11、；

12、其中，表示预加重后的语音信号，表示上一帧初始语音信号，表示预加重系数；

13、s12、对所述预加重后的语音信号进行分帧加窗和降噪处理，得到降噪后的语音信号，具体步骤如下：

14、s121、以时长作为标准，对所述预加重后的语音信号进行分割，得到分割后的语音信号片段，记为语音信号片段集合，其中表示第 m段语音信号片段；设定语音信号片段集合中语音信号片段的帧长为，则汉明窗计算公式如下：

15、；

16、使用所述汉明窗对语音信号片段集合进行分帧加窗处理，并对分割后的语音信号片段进行组合，得到分帧加窗后的语音信号；

17、s122、使用谱减法对所述分帧加窗后的语音信号进行降噪处理，设定第帧分帧加窗后的语音信号为，分帧加窗后的语音信号的帧长为，表示内的随机数，则分帧加窗后的语音信号的频域值计算公式如下：

18、；

19、其中，表示第帧分帧加窗后的语音信号的频域值，；

20、分帧加窗后的语音信号包括静音段，设定静音段的帧数为，则静音段的平均能量计算公式如下：

21、；

22、其中，表示第帧的平均能量，；

23、设定表示过减因子，表示增益因子，比较所述静音段的平均能量和分帧加窗后的语音信号的频域值，当分帧加窗后的语音信号的频域值大于或者等于静音段的平均能量时，则第帧的幅值；当分帧加窗后的语音信号的频域值小于静音段的平均能量时，则第帧的幅值；再根据幅值得到相位角，结合幅值和相位角对所述分帧加窗后的语音信号进行变换后，得到谱减后的语音信号，即降噪语音信号；

24、s13、设定第帧降噪语音信号的振幅能量为，降噪语音信号的帧长为，则降噪语音信号的平均振幅能量计算公式如下：

25、；

26、其中，表示降噪语音信号的平均振幅能量，；

27、统计每帧降噪语音信号通过零电平的次数，记为降噪语音信号的过零率，设定过零率阈值为，平均振幅能量阈值为，当所述降噪语音信号的平均振幅能量小于平均振幅能量阈值或者降噪语音信号的过零率小于过零率阈值时，此时降噪语音信号进入过渡段；当所述降噪语音信号的平均振幅能量小于平均振幅能量阈值且降噪语音信号的过零率小于过零率阈值时，此时降噪语音信号进入静音段；当所述降噪语音信号的平均振幅能量大于或者等于平均振幅能量阈值或者降噪语音信号的过零率大于或者等于过零率阈值时，此时降噪语音信号进入语音段；筛选出非语音段和语音段，完成端点检测，得到处理后的语音信号。

28、该专利技术通过获取语音音频，生成初始语音信号，对所述初始语音信号进行语音信号预加重处理、语音信号分帧加窗处理、语音信号降噪处理和端点检测处理后，有效地解决了语音信号丢失问题，减少噪音干扰，通过划分端点减少数据处理量，提高处理效率。

29、优选地，所述s2包括以下步骤：

30、s21、在所述本文档来自技高网...

【技术保护点】

1.一种基于深度学习的语音识别和人机交互方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述S1包括如下步骤：

3.根据权利要求2所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述S12包括如下步骤：

4.根据权利要求3所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述根据降噪语音信号的过零率进行端点检测包括如下步骤：

5.根据权利要求4所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述S2包括如下步骤：

6.根据权利要求5所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述S3包括如下步骤：

7.根据权利要求4所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述S4包括如下步骤：

8.根据权利要求7所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述训练词向量模型包括如下步骤：

9.实现如权利要求1-8任意一项所述的基于深度学习的语音识别和人机

...

【技术特征摘要】

1.一种基于深度学习的语音识别和人机交互方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述s1包括如下步骤：

3.根据权利要求2所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述s12包括如下步骤：

4.根据权利要求3所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述根据降噪语音信号的过零率进行端点检测包括如下步骤：

5.根据权利要求4所述的一种基于深度学习的语音识别和人机交互方法，其特征在于，所述s2包括如下步骤：...

【专利技术属性】
技术研发人员：张海东，李鹏德，张钧，吴小亮，
申请(专利权)人：北京创世漫道科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人