角色识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35692803 阅读:18 留言:0更新日期:2022-11-23 14:42
本发明专利技术公开了一种角色识别方法,该方法包括获取目标音频文本,对目标音频文本进行文本检测,得到文本检测结果;对所述检测失败结果对应的所述目标音频文本进行纠正处理,得到纠正音频文本;获取纠正音频文本对应的纠正音频数据,对纠正音频数据进行声纹特征提取,得到音频声纹特征;确定纠正音频文本对应的文本特征向量,以及确定音频声纹特征对应的音频特征向量;基于音频特征向量和文本特征向量,确定纠正音频文本对应的情绪识别结果,并基于情绪识别结果、音频特征向量和文本特征向量,确定纠正音频文本对应的角色类别。如此,本发明专利技术通过情绪识别结果对纠正音频文本对应的角色类别进行辅助识别,从而提高了对角色识别的准确性。性。性。

【技术实现步骤摘要】
角色识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音交互
,尤其涉及一种角色识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]在智能语音的应用中,对语音交互中的说话人进行身份识别的场景非常典型和普遍,如智能会议的发言人的识别和智能客服的客服/客户的识别等。
[0003]现有技术中,往往是基于语音数据建立的声纹识别模型对说话人的身份进行识别。在智能会议或客服通话等场景下多个说话人在交替说话,从而在不同说话人的语音话术快速切换下,对说话人的身份识别的准确性较低。

技术实现思路

[0004]本专利技术实施例提供一种角色识别方法、装置、计算机设备及存储介质,以解决现有技术中对语音数据进行角色识别的准确性较低的问题。
[0005]一种角色识别方法,包括:
[0006]获取目标音频文本,对所述目标音频文本进行文本检测,得到文本检测结果;所述文本检测结果中包括检测失败结果;所述检测失败结果表征所述目标音频文本存在错误;
[0007]对所述检测失败结果对应的所述目标音频文本进行纠正处理,得到纠正音频文本;
[0008]获取所述纠正音频文本对应的纠正音频数据,对所述纠正音频数据进行声纹特征提取,得到音频声纹特征;
[0009]确定所述纠正音频文本对应的文本特征向量,以及确定所述音频声纹特征对应的音频特征向量;
[0010]基于所述音频特征向量和所述文本特征向量,确定所述纠正音频文本对应的情绪识别结果,并基于所述情绪识别结果、所述音频特征向量和所述文本特征向量,确定所述纠正音频文本对应的角色类别。
[0011]一种角色识别装置,包括:
[0012]文本检测模块,用于获取目标音频文本,对所述目标音频文本进行文本检测,得到文本检测结果;所述文本检测结果中包括检测失败结果;所述检测失败结果表征所述目标音频文本存在错误;
[0013]文本纠正模块,用于对所述检测失败结果对应的所述目标音频文本进行纠正处理,得到纠正音频文本;
[0014]特征提取模块,用于获取所述纠正音频文本对应的纠正音频数据,对所述纠正音频数据进行声纹特征提取,得到音频声纹特征;
[0015]特征向量模块,用于确定所述纠正音频文本对应的文本特征向量,以及确定所述音频声纹特征对应的音频特征向量;
[0016]角色识别模块,用于基于所述音频特征向量和所述文本特征向量,确定所述纠正音频文本对应的情绪识别结果,并基于所述情绪识别结果、所述音频特征向量和所述文本特征向量,确定所述纠正音频文本对应的角色类别。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述角色识别方法。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述角色识别方法。
[0019]本专利技术提供一种角色识别方法、装置、计算机设备及存储介质,该方法通过对目标音频文本进行文本检测,以在判定目标音频文本存在错误时,对存在错误的目标音频文本进行纠正。从而为后续步骤中进行角色识别识别时提供准确的数据基础,提高角色识别的准确率。进一步地,本专利技术结合了文本特征向量和音频特征向量确定情绪识别结果,并通过情绪识别结果对纠正音频文本对应的角色类别进行辅助识别。如此,即可结合不同角色类别的情绪状态加强角色识别判断的能力,进一步提高了角色识别的准确性。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中角色识别方法的应用环境示意图;
[0022]图2是本专利技术一实施例中角色识别方法的流程图;
[0023]图3是本专利技术一实施例中角色识别方法中步骤S50的流程图;
[0024]图4是本专利技术一实施例中角色识别方法中步骤S50的另一流程图;
[0025]图5是本专利技术一实施例中角色识别装置的原理框图;
[0026]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术实施例提供的角色识别方法,该角色识别方法可应用如图1所示的应用环境中。具体地,该角色识别方法应用在角色识别装置中,该角色识别装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中对语音数据进行角色识别的准确性较低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便
携式可穿戴设备上。
[0029]在一实施例中,如图2所示,提供一种角色识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0030]S10:获取目标音频文本,对所述目标音频文本进行文本检测,得到文本检测结果;所述文本检测结果中包括检测失败结果;所述检测失败结果表征所述目标音频文本存在错误。
[0031]可理解地,目标音频文本可以是用户通过移动终端的语音识别软件(闪电文字语音转换软件或风云文字语音转换软件等软件)对音频数据识别后发送到服务器的,也可以是用户在客户端通过自动语音识别技术(ASR,Automatic Speech Recognition)对音频数据进行识别后发送到服务器的。对目标音频文本进行文本检测,也即对目标音频文本中是否存在识别错误的字词或句子进行检测,从而得到文本检测结果。文本检测结果中包括检测成功结果和检测失败结果,检测成功结果用于表征目标音频文本的内容全部正确,检测失败结果用于表征目标音频文本的内容存在错误。
[0032]S20:对所述检测失败结果对应的所述目标音频文本进行纠正处理,得到纠正音频文本。
[0033]可理解地,纠正音频文本为对检测失败结果对应的目标音频文本中错误字词或错误句子修正后的文本。
[0034]具体地,在得到文本检测结果之后,从文本检测结果中筛选出检测失败结果,并确定检测失败结果对应的目标音频文本。对检测失败结果对应的目标音频文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种角色识别方法,其特征在于,包括:获取目标音频文本,对所述目标音频文本进行文本检测,得到文本检测结果;所述文本检测结果中包括检测失败结果;所述检测失败结果表征所述目标音频文本存在错误;对所述检测失败结果对应的所述目标音频文本进行纠正处理,得到纠正音频文本;获取所述纠正音频文本对应的纠正音频数据,对所述纠正音频数据进行声纹特征提取,得到音频声纹特征;确定所述纠正音频文本对应的文本特征向量,以及确定所述音频声纹特征对应的音频特征向量;基于所述音频特征向量和所述文本特征向量,确定所述纠正音频文本对应的情绪识别结果,并基于所述情绪识别结果、所述音频特征向量和所述文本特征向量,确定所述纠正音频文本对应的角色类别。2.如权利要求1所述的角色识别方法,其特征在于,所述对所述目标音频文本进行文本检测,得到文本检测结果,包括:对所述目标音频文本进行文本检测,得到所述目标音频文本对应的文本检测值;获取预设阈值,并根据所述预设阈值和所述文本检测值,确定所述文本检测结果。3.如权利要求1所述的角色识别方法,其特征在于,所述对所述检测失败结果对应的所述目标音频文本进行纠正处理,得到纠正音频文本,包括:将所述检测失败结果对应的所述目标音频文本确定为错误音频文本,并确定所述错误音频文本中包含的待纠正字词;对所述错误音频文本中的所述待纠正字词进行掩码处理,得到待纠正掩码文本;将所述待纠正掩码文本输入至预设语言模型,通过所述预设语言模型对所述待纠正掩码文本进行纠正预测,得到所述待纠正字词对应的预测替换字词;将所述预测替换字词替换所述待纠正字词,并将替换之后的所述错误音频文本记录为所述纠正音频文本。4.如权利要求1所述的角色识别方法,其特征在于,所述获取所述纠正音频文本对应的纠正音频数据,对所述纠正音频数据进行声纹特征提取,得到音频声纹特征,包括:对所述纠正音频文本对应的所述纠正音频数据进行预处理,得到目标语音数据;对所述目标语音数据进行声纹特征提取,得到所述纠正音频数据对应的所述音频声纹特征。5.如权利要求1所述的角色识别方法,其特征在于,所述确定所述纠正音频文本对应的文本特征向量,以及确定所述音频声纹特征对应的音频特征向量,包括:对所述纠正音频文本进行分词处理,得到所述纠正音频文本对应的音频字词;对所述音频字词进行向量转换,得到所述音频字词对应的词向量,并根据所有所述词向量,确定所述纠正音频文本对应的所述文本特征向量;对所述音频声纹特征进行切割处理,得到切割音频...

【专利技术属性】
技术研发人员:蒋佳惟
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1