语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：38343311 阅读：11 留言：0更新日期：2023-08-02 09:23

本发明专利技术公开了一种语音识别方法、装置、电子设备和存储介质。方法包括获取语音数据；语音数据中包含至少两个用户对应的语音片段；获取声纹识别模型；声纹识别模型中包括至少一个残差网络；每一个残差网络中均具有一个双向隐藏单元；通过声纹识别模型对语音数据进行声纹识别，以对语音数据进行人声分离，得到人声分离结果；人声分离结果中包含不同用户对应的语音片段；利用语音识别模型对各用户对应的语音片段进行语音识别，得到每一用户对应的语音转写文本。采用本发明专利技术提供的方案利用语音识别模型进行语音识别之前，先利用声纹识别模型对语音数据中不同用户对应的语音片段进行分离，可获得分离后的每一用户对应的语音转写文本。获得分离后的每一用户对应的语音转写文本。获得分离后的每一用户对应的语音转写文本。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质

[0001]本专利技术涉及语音识别
，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]为了更好服务群众，及时响应群众诉求，多个地区开通了多条便民服务热线，热线全天候接待居民生活、就医、心理、应急、安全、投诉等方面来电需求。通话数据中，通常包含大量的可用信息，这些可用信息可用来帮助研究学者进行研究，以更好地服务群众。
[0003]现有技术中，针对通话数据的处理，往往只是通过人工转换或者机器转换的方式，将通话数据简单转换为文本数据，无法针对通话数据中不同用户的对话信息进行辅助分析。并且不同用户往往存在不同的口音，针对整段通话数据的转换识别容易出现错误，导致语音识别转换准确率较低。

技术实现思路

[0004]为解决现有技术中仅针对整段通话数据的转换识别，导致语音识别转换准确率较低的技术问题，本专利技术实施例提供一种语音识别方法、装置、电子设备和存储介质。
[0005]本专利技术实施例的技术方案是这样实现的：
[0006]本专利技术实施例提供了一种语音识别方法，方法包括：
[0007]获取语音数据；所述语音数据中包含至少两个用户对应的语音片段；
[0008]获取声纹识别模型；所述声纹识别模型中包括至少一个残差网络；每一个所述残差网络中均具有一个双向隐藏单元；
[0009]通过所述声纹识别模型对所述语音数据进行声纹识别，以对所述语音数据进行人声分离，得到人声分离结果；所述人声分离结果中包含不...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括；获取语音数据；所述语音数据中包含至少两个用户对应的语音片段；获取声纹识别模型；所述声纹识别模型中包括至少一个残差网络；每一个所述残差网络中均具有一个双向隐藏单元；通过所述声纹识别模型对所述语音数据进行声纹识别，以对所述语音数据进行人声分离，得到人声分离结果；所述人声分离结果中包含不同用户对应的所述语音片段；利用语音识别模型对各所述用户对应的语音片段进行语音识别，得到每一所述用户对应的语音转写文本。2.根据权利要求1所述的方法，其特征在于，所述声纹识别模型中包括三个残差网络；所述通过所述声纹识别模型对所述语音数据进行声纹识别，以对所述语音数据进行人声分离，得到人声分离结果，包括：将所述语音数据输入所述声纹识别模型中的第一个残差网络中，获得第一特征；将所述第一特征输入所述声纹识别模型中的第二个残差网络中，获得第二特征；将所述第二特征输入所述声纹识别模型中的第三个残差网络中，获得第三特征；对所述第一特征、所述第二特征和所述第三特征进行自注意力和池化处理，获得声纹特征；对所述声纹特征进行聚类，基于聚类结果将所述语音数据中每个人的语音片段进行分离。3.根据权利要求2所述的方法，其特征在于，每一个所述残差网络中还具有一个特征卷积单元；所述将所述语音数据输入至所述声纹识别模型中的第一个残差网络中，获取第一特征，包括：通过所述特征卷积单元对所述语音数据进行卷积处理，提取所述语音数据中的基础特征；基于所述语音数据中每一个字词的前后顺序，通过所述双向隐藏单元提取所述语音数据的关联特征；对所述基础特征和所述关联特征进行拼接，获得第一特征。4.根据权利要求1所述的方法，其特征在于，所述利用语音识别模型对各所述用户对应的语音片段进行语音识别之前，还包括：获取用于训练初始语音模型的初始数据；一个所述初始数据对应一个语音转写分值；获取预设转写阈值，并将语音转写分值小于所述预设转写阈值的初始数据记录为待调整数据，将语音转写分值大于或等于所述预设转写阈值的初始数据记录为第一训练数据；对所述待调整数据的语音转写分值进行调整，得到所述待调整数据对应的调整转写分值，并将调整转写分值最高的预设数量个待调整数据作为第二训练数据；通过所述第一训练数据和所述第二训练数据对所述初始语音模型进行训练，将训练完成的所述初始语音模型记录为所述语音识别模型。5.根据权利要求4所述的方法，其特征在于，所述对所述待调整数据的语音转写...

【专利技术属性】
技术研发人员：黄石磊，王琳琳，杨永胜，苏丹，张超，
申请(专利权)人：深圳市北科瑞声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人