语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38343311 阅读:11 留言:0更新日期:2023-08-02 09:23
本发明专利技术公开了一种语音识别方法、装置、电子设备和存储介质。方法包括获取语音数据;语音数据中包含至少两个用户对应的语音片段;获取声纹识别模型;声纹识别模型中包括至少一个残差网络;每一个残差网络中均具有一个双向隐藏单元;通过声纹识别模型对语音数据进行声纹识别,以对语音数据进行人声分离,得到人声分离结果;人声分离结果中包含不同用户对应的语音片段;利用语音识别模型对各用户对应的语音片段进行语音识别,得到每一用户对应的语音转写文本。采用本发明专利技术提供的方案利用语音识别模型进行语音识别之前,先利用声纹识别模型对语音数据中不同用户对应的语音片段进行分离,可获得分离后的每一用户对应的语音转写文本。获得分离后的每一用户对应的语音转写文本。获得分离后的每一用户对应的语音转写文本。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]为了更好服务群众,及时响应群众诉求,多个地区开通了多条便民服务热线,热线全天候接待居民生活、就医、心理、应急、安全、投诉等方面来电需求。通话数据中,通常包含大量的可用信息,这些可用信息可用来帮助研究学者进行研究,以更好地服务群众。
[0003]现有技术中,针对通话数据的处理,往往只是通过人工转换或者机器转换的方式,将通话数据简单转换为文本数据,无法针对通话数据中不同用户的对话信息进行辅助分析。并且不同用户往往存在不同的口音,针对整段通话数据的转换识别容易出现错误,导致语音识别转换准确率较低。

技术实现思路

[0004]为解决现有技术中仅针对整段通话数据的转换识别,导致语音识别转换准确率较低的技术问题,本专利技术实施例提供一种语音识别方法、装置、电子设备和存储介质。
[0005]本专利技术实施例的技术方案是这样实现的:
[0006]本专利技术实施例提供了一种语音识别方法,方法包括:
[0007]获取语音数据;所述语音数据中包含至少两个用户对应的语音片段;
[0008]获取声纹识别模型;所述声纹识别模型中包括至少一个残差网络;每一个所述残差网络中均具有一个双向隐藏单元;
[0009]通过所述声纹识别模型对所述语音数据进行声纹识别,以对所述语音数据进行人声分离,得到人声分离结果;所述人声分离结果中包含不同用户对应的所述语音片段;
[0010]利用语音识别模型对各所述用户对应的语音片段进行语音识别,得到每一所述用户对应的语音转写文本。
[0011]在一实施例中,所述声纹识别模型中包括三个残差网络;所述通过所述声纹识别模型对所述语音数据进行声纹识别,以对所述语音数据进行人声分离,得到人声分离结果,包括:
[0012]将所述语音数据输入所述声纹识别模型中的第一个残差网络中,获得第一特征;
[0013]将所述第一特征输入所述声纹识别模型中的第二个残差网络中,获得第二特征;
[0014]将所述第二特征输入所述声纹识别模型中的第三个残差网络中,获得第三特征;
[0015]对所述第一特征、所述第二特征和所述第三特征进行自注意力和池化处理,获得声纹特征;
[0016]对所述声纹特征进行聚类,基于聚类结果将所述语音数据中每个人的语音片段进行分离。
[0017]在一实施例中,每一个所述残差网络中还具有一个特征卷积单元;所述将所述语
音数据输入至所述声纹识别模型中的第一个残差网络中,获取第一特征,包括:
[0018]通过所述特征卷积单元对所述语音数据进行卷积处理,提取所述语音数据中的基础特征;
[0019]基于所述语音数据中每一个字词的前后顺序,通过所述双向隐藏单元提取所述语音数据的关联特征;
[0020]对所述基础特征和所述关联特征进行拼接,获得第一特征。
[0021]在一实施例中,所述利用语音识别模型对各所述用户对应的语音片段进行语音识别之前,还包括:
[0022]获取用于训练初始语音模型的初始数据;一个所述初始数据对应一个语音转写分值;
[0023]获取预设转写阈值,并将语音转写分值小于所述预设转写阈值的初始数据记录为待调整数据,将语音转写分值大于或等于所述预设转写阈值的初始数据记录为第一训练数据;
[0024]对所述待调整数据的语音转写分值进行调整,得到所述待调整数据对应的调整转写分值,并将调整转写分值最高的预设数量个待调整数据作为第二训练数据;
[0025]通过所述第一训练数据和所述第二训练数据对所述初始语音模型进行训练,将训练完成的所述初始语音模型记录为所述语音识别模型。
[0026]在一实施例中,所述对所述待调整数据的语音转写分值进行调整,得到所述待调整数据对应的调整转写分值包括:
[0027]获取通过所述初始语音模型对所述待调整数据进行语音识别得到的初始转写文本;
[0028]对所述初始转写文本进行分词处理,获取所述初始转写文本中的多个文本字词;
[0029]获取每个所述文本字词的预设字词关联系数,并基于每个文本字词的字词关联系数对所述待调整数据的语音转写分值进行调整,得到所述调整转写分值。
[0030]在一实施例中,所述预设字词关联系数包括第一字词关联系数和第二字词关联系数,所述获取每个所述文本字词的预设字词关联系数,并基于每个文本字词的字词关联系数对所述待调整数据的语音转写分值进行调整,得到所述调整转写分值,包括:
[0031]基于每个文本字词的字词关联系数利用如下公式(1)对所述待调整数据的语音转写分值进行调整:
[0032][0033]其中,A为调整转写分值;S

为预设转写阈值;S为所述待调整数据的语音转写分值;M为第一字词关联系数,N为第二字词关联系数。
[0034]在一实施例中,所述利用语音识别模型对各所述用户对应的语音片段进行语音识别,得到每一所述用户对应的语音转写文本,包括:
[0035]对所述语音片段进行意图识别,确定每一所述语音片段对应的所有意图;
[0036]获取预设的场景意图集合,将所有意图均不在所述预设的场景意图集合中的语音片段记录为待剔除片段;
[0037]对除所述待剔除片段之外的其它语音片段进行语音识别,得到每一所述用户对应
的语音转写文本。
[0038]本专利技术实施例还提供了一种语音识别装置,所述装置包括:
[0039]第一获取模块,用于获取语音数据;所述语音数据中包含至少两个用户对应的语音片段;
[0040]第二获取模块,用于获取声纹识别模型;所述声纹识别模型中包括至少一个残差网络;每一个所述残差网络中均具有一个双向隐藏单元;
[0041]声纹识别模块,用于通过所述声纹识别模型对所述语音数据进行声纹识别,以对所述语音数据进行人声分离,得到人声分离结果;所述人声分离结果中包含不同用户对应的所述语音片段;
[0042]语音识别模块,用于利用语音识别模型对各所述用户对应的语音片段进行语音识别,得到每一所述用户对应的语音转写文本。
[0043]本专利技术实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
[0044]处理器用于运行计算机程序时,执行上述任一方法的步骤。
[0045]本专利技术实施例还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时,实现上述任一方法的步骤。
[0046]本专利技术实施例提供的语音识别方法、装置、电子设备和存储介质,获取语音数据;所述语音数据中包含至少两个用户对应的语音片段;获取声纹识别模型;所述声纹识别模型中包括至少一个残差网络;每一个所述残差网络中均具有一个双向隐藏单元;通过所述声纹识别模型对所述语音数据进行声纹识别,以对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括;获取语音数据;所述语音数据中包含至少两个用户对应的语音片段;获取声纹识别模型;所述声纹识别模型中包括至少一个残差网络;每一个所述残差网络中均具有一个双向隐藏单元;通过所述声纹识别模型对所述语音数据进行声纹识别,以对所述语音数据进行人声分离,得到人声分离结果;所述人声分离结果中包含不同用户对应的所述语音片段;利用语音识别模型对各所述用户对应的语音片段进行语音识别,得到每一所述用户对应的语音转写文本。2.根据权利要求1所述的方法,其特征在于,所述声纹识别模型中包括三个残差网络;所述通过所述声纹识别模型对所述语音数据进行声纹识别,以对所述语音数据进行人声分离,得到人声分离结果,包括:将所述语音数据输入所述声纹识别模型中的第一个残差网络中,获得第一特征;将所述第一特征输入所述声纹识别模型中的第二个残差网络中,获得第二特征;将所述第二特征输入所述声纹识别模型中的第三个残差网络中,获得第三特征;对所述第一特征、所述第二特征和所述第三特征进行自注意力和池化处理,获得声纹特征;对所述声纹特征进行聚类,基于聚类结果将所述语音数据中每个人的语音片段进行分离。3.根据权利要求2所述的方法,其特征在于,每一个所述残差网络中还具有一个特征卷积单元;所述将所述语音数据输入至所述声纹识别模型中的第一个残差网络中,获取第一特征,包括:通过所述特征卷积单元对所述语音数据进行卷积处理,提取所述语音数据中的基础特征;基于所述语音数据中每一个字词的前后顺序,通过所述双向隐藏单元提取所述语音数据的关联特征;对所述基础特征和所述关联特征进行拼接,获得第一特征。4.根据权利要求1所述的方法,其特征在于,所述利用语音识别模型对各所述用户对应的语音片段进行语音识别之前,还包括:获取用于训练初始语音模型的初始数据;一个所述初始数据对应一个语音转写分值;获取预设转写阈值,并将语音转写分值小于所述预设转写阈值的初始数据记录为待调整数据,将语音转写分值大于或等于所述预设转写阈值的初始数据记录为第一训练数据;对所述待调整数据的语音转写分值进行调整,得到所述待调整数据对应的调整转写分值,并将调整转写分值最高的预设数量个待调整数据作为第二训练数据;通过所述第一训练数据和所述第二训练数据对所述初始语音模型进行训练,将训练完成的所述初始语音模型记录为所述语音识别模型。5.根据权利要求4所述的方法,其特征在于,所述对所述待调整数据的语音转写...

【专利技术属性】
技术研发人员:黄石磊王琳琳杨永胜苏丹张超
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1