System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音处理,特别涉及一种语音端点检测方法及系统。
技术介绍
1、语音端点检测是智能语音领域的一项基础任务,其主要功能是识别一段音频中语音的始末位置,进而可提取出音频中的语音片段。语音端点检测可应用于智能语音系统的预处理环节,对语音端点的准确定位可明显提升语音识别、语种识别等多种语音系统的效果。
2、然而,现有的语音端点检测方法大都基于时域检测,主要的分析指标为短时能量和过零率。虽然该方法实现简单,但对于人声与环境噪音难以区分,在信噪比较低的情况下端点识别的准确率较差。
技术实现思路
1、本专利技术的目的在于提供一种语音端点检测方法及系统,以解决现有语音端点检测方法在信噪比较低的情况下无法准确识别语音端点的问题。
2、为解决上述技术问题,本专利技术提供一种语音端点检测方法,包括:
3、基于神经网络构建端点检测模型,所述端点检测模型包括预处理器、时域编码器、频域编码器和解码器;
4、利用预处理器对音频信号进行预处理,以得到音频时域向量和音频频域向量;
5、利用时域编码器对音频时域向量进行编码处理,以提取到时域特征向量;
6、利用频域编码器对音频频域向量进行编码处理,以提取到频域特征向量;
7、利用解码器对时域特征向量和频域特征向量进行解码处理,以得到语音端点。
8、可选的,在所述的语音端点检测方法中,所述利用预处理器对音频信号进行预处理,以得到音频时域向量和音频频域向量的方法包括
9、利用高通滤波器对音频信号进行预加重,以得到音频信号值;
10、按照预设的帧长度和帧移量,对音频信号进行分帧,以得到音频帧信号;
11、对每一个音频帧信号进行加窗处理,以得到音频时域向量;
12、计算音频帧信号的频谱、功率谱和频带;
13、利用梅尔滤波器对音频帧信号进行处理,以得到音频频域向量。
14、可选的,在所述的语音端点检测方法中,所述利用高通滤波器对音频信号进行预加重,以得到音频信号值的方法包括:
15、利用高通滤波器将音频信号由模拟信号转换为数字信号,以得到音频数字信号;
16、计算音频数字信号中每个采样点的音频信号值,其中,音频信号值的计算公式为:
17、y(t)=x(t)-αx(t-1)
18、其中,y(t)表示t时刻采样点的音频信号值,x(t)表示t时刻输入的音频数字信号,α为经验系数。
19、可选的,在所述的语音端点检测方法中,所述计算音频帧信号的频谱、功率谱和频带的方法包括:
20、对每一个音频帧信号做短时傅里叶变换,以得到音频帧信号的频谱;
21、对每一个音频帧信号的频谱取模平方,以得到音频帧信号的功率谱;
22、对每一个音频帧信号通过梅尔滤波器的梅尔刻度得到梅尔频率尺度,并通过三角滤波器从梅尔频率尺度中提取音频帧信号的频带。
23、可选的,在所述的语音端点检测方法中,所述利用时域编码器对音频时域向量进行处理,以提取到时域特征向量的方法包括:
24、构建时域编码器,所述时域编码器包括依次设置的位置嵌入模块、多头注意力模块、第一层归一化模块、全连接层模块、第二层归一化模块和非线性变换模块;
25、利用位置嵌入模块对音频时域向量进行位置嵌入处理;
26、利用多头注意力模块对位置嵌入后的音频时域向量进行多头自注意力计算,以得到时域结果向量;
27、利用第一层归一化模块对时域结果向量进行层归一化处理,并利用全连接层模块做前向传播,以得到初始时域特征向量;
28、利用第二层归一化模块对初始时域特征向量进行层归一化处理,并利用非线性变换模块做softmax非线性变换,以得到时域特征向量。
29、可选的,在所述的语音端点检测方法中,所述利用多头注意力模块对位置嵌入后的音频时域向量进行多头自注意力计算,以得到时域结果向量的方法包括:
30、利用多头自注意力公式对位置嵌入后的音频时域向量进行计算,以得到时域注意力向量,其中,所述多头自注意力公式为:
31、
32、k1=wk1ep
33、v1=wv1ep
34、q1=wq1ep
35、其中,a为时域注意力向量,ep为位置嵌入后的音频时域向量,d为k1的维度,wk1、wv1和wq1为时域编码器需训练的参数;
36、对多次计算得到的时域注意力向量进行拼接,以得到时域结果向量。
37、可选的,在所述的语音端点检测方法中,所述利用频域编码器对音频频域向量进行处理,以提取到频域特征向量的方法包括:
38、构建频域编码器,所述频域编码器包括依次设置的位置嵌入模块、多头注意力模块、第一层归一化模块、全连接层模块、第二层归一化模块和非线性变换模块;
39、利用位置嵌入模块对音频频域向量进行位置嵌入处理;
40、利用多头注意力模块对位置嵌入后的音频频域向量进行多头自注意力计算,以得到频域结果向量;
41、利用第一层归一化模块对频域结果向量进行层归一化处理,并利用全连接层模块做前向传播,以得到初始频域特征向量;
42、利用第二层归一化模块对初始频域特征向量进行层归一化处理,并利用非线性变换模块做softmax非线性变换,以得到频域特征向量。
43、可选的,在所述的语音端点检测方法中,所述利用解码器对时域特征向量和频域特征向量进行解码处理,以得到语音端点的方法包括:
44、构建解码器,所述解码器包括依次设置的加权融合模块、循环神经网络模块和非线性变换模块;
45、利用加权融合模块将时域特征向量和频域特征向量进行加权融合,以得到音频特征,其中,加权的计算公式为:
46、ea=wt·ef
47、其中,ea表示音频特征,wt表示时域特征向量,ef表示频域特征向量;
48、利用循环神经网络模块对音频特征进行解码,以得到神经网络向量及其中每个位置的特征值;
49、利用非线性变换模块对神经网络向量做非线性变换,以得到音频特征序列的每个帧对应的类别,所述类别包括静音帧、初始语音帧、结束语音帧和中间语音帧;
50、提取初始语音帧和结束语音帧作为语音端点。
51、可选的,在所述的语音端点检测方法中,所述神经网络向量中每个位置的特征值的计算公式为:
52、h(t)=f(uxt+wh(t-1)+b)
53、其中,xt为音频特征ea在位置t的值,u、w、b和h(0)为循环神经网络需要训练的参数。
54、为解决上述技术问题,本专利技术还提供一种语音端点检测系统,用于实现如上任一项所述的语音端点检测方法,所述语音端点检测系统包括:音频输入单元,用于获取音频信号;端点检测单元,包括端点检测模型,用于本文档来自技高网...
【技术保护点】
1.一种语音端点检测方法,其特征在于,包括:
2.根据权利要求1所述的语音端点检测方法,其特征在于,所述利用预处理器对音频信号进行预处理,以得到音频时域向量和音频频域向量的方法包括:
3.根据权利要求2所述的语音端点检测方法,其特征在于,所述利用高通滤波器对音频信号进行预加重,以得到音频信号值的方法包括:
4.根据权利要求2所述的语音端点检测方法,其特征在于,所述计算音频帧信号的频谱、功率谱和频带的方法包括:
5.根据权利要求1所述的语音端点检测方法,其特征在于,所述利用时域编码器对音频时域向量进行处理,以提取到时域特征向量的方法包括:
6.根据权利要求5所述的语音端点检测方法,其特征在于,所述利用多头注意力模块对位置嵌入后的音频时域向量进行多头自注意力计算,以得到时域结果向量的方法包括:
7.根据权利要求1所述的语音端点检测方法,其特征在于,所述利用频域编码器对音频频域向量进行处理,以提取到频域特征向量的方法包括:
8.根据权利要求1所述的语音端点检测方法,其特征在于,所述利用解码器对时域特征向
9.根据权利要求8所述的语音端点检测方法,其特征在于,所述神经网络向量中每个位置的特征值的计算公式为:
10.一种语音端点检测系统,用于实现如权利要求1~9任一项所述的语音端点检测方法,其特征在于,所述语音端点检测系统包括:
...【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:
2.根据权利要求1所述的语音端点检测方法,其特征在于,所述利用预处理器对音频信号进行预处理,以得到音频时域向量和音频频域向量的方法包括:
3.根据权利要求2所述的语音端点检测方法,其特征在于,所述利用高通滤波器对音频信号进行预加重,以得到音频信号值的方法包括:
4.根据权利要求2所述的语音端点检测方法,其特征在于,所述计算音频帧信号的频谱、功率谱和频带的方法包括:
5.根据权利要求1所述的语音端点检测方法,其特征在于,所述利用时域编码器对音频时域向量进行处理,以提取到时域特征向量的方法包括:
6.根据权利要求5所述的语音端点检测方法,其特...
【专利技术属性】
技术研发人员:吕召彪,许程冲,赵文博,肖清,杜量,
申请(专利权)人:联通广东产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。