【技术实现步骤摘要】
一种语音识别的方法、装置及设备
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别的方法、装置及设备。
技术介绍
汽车销售人员每天需要接待不同的顾客,并为顾客提供汽车相关的介绍或咨询,为了考核汽车销售人员的业务水平,往往需要对汽车销售人员工作时对用户讲解的内容进行录音。然而,由于录音文件不仅包括汽车销售人员的语音,还包括如顾客等其他与考核无关的人员,从而导致考核效率大大降低,因此,需要将录音文件中指定汽车销售人员的语音筛选出来。但是在实际营销场景中,汽车销售部门由于无法事先获得全部顾客的语音数据,无法直接使用分类模型或算法进行销售人员与顾客语音的分类识别。此外,汽车销售行业流动性大的特点,也使得直接采用多分类算法的解决方案面临极大挑战。汽车销售行业因此需要一种可以在顾客语音与标签数据缺失情况下,有效识别汽车销售人员语音的技术方案,并保证该方案在实施中不会因为人员流动导致因模型频繁训练引起的性能下降。
技术实现思路
本专利技术提供了一种语音识别的方法、装置、设备及存储介质,以实现在语音数据中将指定用户的语音识别出来,识别速度快、准确度高。第一方面,本专利技术实施例提供了一种语音识别的方法,该方法包括:获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;根据所述语音编码识别所述待识别语音数据是否 ...
【技术保护点】
1.一种语音识别的方法,其特征在于,包括:/n获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;/n根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;/n根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。/n
【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:
获取指定长度的待识别语音数据以及第一设定个数的参考者的参考语音数据,其中,所述参考者不包括指定用户;
根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,以获取所述待识别语音数据的语音编码;
根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述参考语音数据集以及梅尔频率倒谱系数,对所述待识别语音数据进行语音编码,包括:
将所述待识别语音数据以及各个所述参考者的参考语音数据分别划分为设定长度的语音子数据和参考子数据;
采用设定维度的梅尔频率倒谱系数对各个所述语音子数据和参考子数据进行处理,以获得各个语音子数据的语音特征向量和各个参考子数据的参考特征向量;
根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语音特征向量和参考特征向量确定所述待识别语音数据的语音编码,包括:
对所述第一设定个数的参考者进行分组;
计算各组的所述参考特征向量的平均值,以获取各组的参考均值向量;
根据各组的所述参考均值向量确定各组的各个所述参考者的特征映射矩阵,其中,所述特征映射矩阵为当前组的所述参考者的参考特征矩阵与当前组的特征向量矩阵的内积矩阵,所述参考特征矩阵为所述参考者的各个参考特征向量减去当前组的所述参考均值向量所得的向量组成的矩阵,所述特征向量矩阵为当前组的所述参考特征矩阵的协方差矩阵的特征向量组成的矩阵;
计算所述指定用户的各个所述语音特征向量与所述参考均值向量的差,记为差值向量,并将所述指定用户的各个差值向量组成差值矩阵;
将所述差值矩阵与所述特征向量矩阵的内积记为语音映射矩阵;
根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码。
4.根据权利要求3所述的方法,其特征在于,所述根据所述特征映射矩阵与所述语音映射矩阵确定所述待识别语音数据的语音编码,包括:
计算所述语音映射矩阵的每个行向量分别与所述特征映射矩阵的所有行向量的L2范数,各个所述L2范数即为所述待识别语音数据的语音编码。
5.根据权利要求1所述的方法,其特征在于,所述根据所述语音编码识别所述待识别语音数据是否为所述指定用户的语音,包括:
获取所述指定用户的编号信息;
根据所述编号信息确定所述指定用户的编码神经网络模型;
将所述语音编码输入所述编码神经网络模型,以获取所述编码神经网络模型输出的模型编码;
根据所述语音编码和模型编码确定所述待识别语音数据是否为所述指定用户的语音。
6.根据权利要求5所述的方法,其特征在于,所述编码神经网络模型的训练过程为:
获取所述指定用户的训练语音数据集,所述训练语音数据集包括第一指定个数的所述指定长度的训练语音数据;
对各个所述训练语音数据进行语音编码,以获取各个所述训练语音数据的训练编码,其中,对所述训练语音进行语音编码的方式与对所述待识别语音数...
【专利技术属性】
技术研发人员:高博,王皓,刘文超,吴艳召,熊伟凝,
申请(专利权)人:王皓,高博,北京智月互联科技有限公司,湾流北京智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。