【技术实现步骤摘要】
一种基于对比预测编码的语音识别方法及系统
[0001]本专利技术属于声纹识别
,特别是涉及一种基于对比预测编码的语音识别方法及系统。
技术介绍
[0002]众所周知,语音识别往往需要采集大量的语音数据,即在各种背景环境下,需识别语音的各种语义(含各种语音、方言)条件下数据条数都需要比较充分。若某一特别背景下使用某个特别方言(或文本语义)所发出语音未能采集到足够的数据,则语音识别模型在该条件下使用时,将有可能出现检测精度下降、不能识别等模型失效现象。传统技术解决此类问题的方法是:大多需要进行类似于MFCC特征提取等各种特征提取方法,进而对特征进行分类操作,最终得到分类结果。此时,各类别中数据是否充分且具有代表性就相当的重要,若是数据不充分、不典型,则与具体类别相关的部分特征将出现缺失、扭曲的现象,影响最终的分类结果。
技术实现思路
[0003]技术目的:本专利技术提供一种基于对比预测编码的语音识别方法及系统;充分利用后台获取的大量不充分的语音数据,将语音数据视为时间序列数据,直接端到端进行转换,不需要中间的语谱特征的提取,每条语音随机提取时间定长的一定数量的片段,每个片段划分为前面数据和后面数据,当前面数据作为输入时,通过第一变换器实现后面时序数据的编码预测,当后面数据作为输入时,通过第二变换器实现前面数据的时序预测,将预测的数据组合后,与同类(或异类)待测数据直接进行端到端的成对数据比较,最终按照语音类别标签要求,实现端到端的语音识别。
[0004]技术方案本专利技术的第一目的是提供一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比预测编码的语音识别方法,其特征在于,包括如下步骤:S1、采集每个语音类别的A个语音文件,对每个语音文件进行预处理,得到PCM编码的语音时序数据;A为大于1的自然数;S2、构建所述语音时序数据的配对数据集;所述配对数据集包括N个三元组(X1,X2,Y);其中:X1为三元组的第一条语音时序数据,X2为三元组的第二条语音时序数据,同类配对时标签Y定义为0,异类配对时标签Y定义为1;同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成;所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据;所述异类配对集每个数据的两条语音时序数据为不同语音类别的语音时序数据;S3、构建配对片段数据集;具体为:对于配对数据集中的第一条语音时序数据X1,首先按照定长m,从中随机截取M个片段S,每个片段S保持定长m;然后将所有定长为m的片段S,取出前半部分定义为片段的前部数据,记为S
p
,取出剩余部分,定义为片段的后部数据,记为S
s
;最后针对每个片段S,复制每个片段S对应的第一条语音时序数据X1、第二条语音时序数据X2和标签Y, 将第二条语音时序数据X2换名为待比较片段S
’
,得到由N*M个四元组(Sp,Ss,S
’
,Y)组成的N*M条配对片段数据集;S4、构建人工神经网络;具体为:S401、建立结合有变分自编码条件的对抗生成模型,用于提取语音时序数据隐含特征;S4011、将片段的前部数据S
p
通过第一变换器处理得到S
ps
,将片段的后部数据S
s
通过第二变换器处理得到S
sp
;S4012、将(S
ps
,S
sp
)组合成一个完整片段S
f
;S4013、创建一维卷积神经网络,当输入为完整片段S
f
时,输出记为Z,当输入为待比较片段S
’
时,输出记为Z
’
;每输入一个完整片段S
f
,必紧随输入一个待比较片段S
’
;S4014、由(Z,Z
’
)计算距离d:d=‖Z
’
-Z‖2;S4015、根据距离d及标签Y,计算损失:;margin为用户自定义的一个大于0的实数;S5、训练由所述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络;S6、通过语音识别网络进行语音识别。2.根据权利要求1所述基于对比预测编码的语音识别方法,其特征在于,M0为128或256。3.根据权利要求2所述基于对比预测编码的语音识别方法,其特征在于,S5具体为:S501、初始化第一变换器、第二变换器和一维卷积神经网络;S502、训练数据为M*N条配对数据片段及标签;S503、将训练数据逐条作为输入导入语音识别网络;S504、以L为损失函数,计算损失;S505、用ADAM优化方法更新语音识别网络的权值;S506、每处理M0条数据,计为一个批次,所有训练数据处理完毕一次,计为一个epoch;
S507、训练K个epoch;K为自然数。4.根据权利要求3所述基于对比预测编码的语音识别方法,其特征在于,S6具体为:从各类别基准语音库中,每类别取一条基准语音构成S
’’
,从用户中取一条待识别语音并进行切片得到切片S
w
,将切片S
w
替换S4013中的待比较片段S
’
,按这种方式组成一对多配对,输入到所述语音识别网络,利用每个配对计算得到Z和Z
’
,通过Z和Z
’
,继而得到距离d,最后形成列表{d
w
},从列表中找得最小值所对应的下标,即为语音类别号。5.一种基于对比预测编码的语音识别系统,其特征在于,包括:预处理模块,采集每个语音类别的A个语音文件,对每个语音文件进行预处理,得到PCM编码的语音时序数据;A...
【专利技术属性】
技术研发人员:戴亦斌,
申请(专利权)人:北京信工博特智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。