一种语音会话的角色识别方法、装置及终端制造方法及图纸

技术编号:25401981 阅读:46 留言:0更新日期:2020-08-25 23:06
本发明专利技术提供一种语音会话的角色识别方法、装置及终端,该角色识别方法包括:获取待识别语音会话;对所述待识别语音会话进行切分,得到多个语音片段;利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份;其中,所述多个语言模型是区分角色的,每个语言模型对应于一个角色;所述多个声学模型是区分角色的,每个声学模型对应于一个角色。本发明专利技术的实施例,可以利用已知说话人身份的语音信息,充分考虑声学特征以及文本特征,实现对语音会话的识别,从而实现对相应语音片段的说话人身份的有效识别。

【技术实现步骤摘要】
一种语音会话的角色识别方法、装置及终端
本专利技术涉及数据处理
,尤其涉及一种语音会话的角色识别方法、装置及终端。
技术介绍
目前,在对记录的语音会话进行角色识别时,主要涉及两个模块:切分模块和聚类模块。其中,切分模块主要负责检测语音会话中说话人身份的改变点,并利用这些改变点将语音会话分割成多个语音片段;聚类模块通常采用k-means等聚类方法,将属于同一说话人身份的语音片段聚类在一起,并根据聚类结果,得到该语音会话中说话人个数以及各说话人的语音。然而,由于聚类模块采用的聚类方法通常为无监督的,仅基于语音片段的特征进行聚类,而不同说话人的语音片段之间的特征差异可能非常小,几乎没有,因此得到的聚类结果的效果往往较差,造成无法对相应语音片段的说话人身份进行有效识别。
技术实现思路
本专利技术实施例提供一种语音会话的角色识别方法、装置及终端,以解决现有的语音会话的角色识别方法中,无法对语音片段的说话人身份进行有效识别的问题。第一方面,本专利技术实施例提供了一种语音会话的角色识别方法,包括:获取待识别语音会话;对所述待识别语音会话进行切分,得到多个语音片段;利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份;其中,所述多个语言模型是区分角色的,每个语言模型对应于一个角色;所述多个声学模型是区分角色的,每个声学模型对应于一个角色。第二方面,本专利技术实施例提供了一种语音会话的角色识别装置,包括:第一获取模块,用于获取待识别语音会话;第一切分模块,用于对所述待识别语音会话进行切分,得到多个语音片段;识别模块,用于利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份;其中,所述多个语言模型是区分角色的,每个语言模型对应于一个角色;所述多个声学模型是区分角色的,每个声学模型对应于一个角色。第三方面,本专利技术实施例提供了一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述语音会话的角色识别方法的步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述语音会话的角色识别方法的步骤。本专利技术实施例中,利用预先训练的区分角色的语言模型和声学模型,识别得到待识别语音会话中的每个语音片段的说话人身份,可以利用已知说话人身份的语音信息,充分考虑声学特征以及文本特征,实现对语音会话的识别,从而相比于无监督的聚类方法,可控性更高,实现对相应语音片段的说话人身份的有效识别。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的语音会话的角色识别方法的流程图;图2A为本专利技术实施例中确定语音片段的说话人身份的过程示意图之一;图2B为本专利技术实施例中确定语音片段的说话人身份的过程示意图之二;图3为本专利技术实施例中利用声学模型确定语音片段的得分的过程示意图;图4为本专利技术实施例的语音会话的角色识别装置的结构示意图;图5为本专利技术实施例的终端的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参见图1,图1是本专利技术实施例提供的一种语音会话的角色识别方法的流程图,该方法应用于终端,如图1所示,该方法包括如下步骤:步骤101:获取待识别语音会话。本实施例中,上述待识别语音会话可以理解为多个即至少两个角色的语音会话,可选为电话录音、会议录音等。步骤102:对所述待识别语音会话进行切分,得到多个语音片段。其中,上述对待识别语音会话进行切分的方式可采用现有方式,本专利技术实施例不对此进行限制。优选的,可采用静音检测技术对待识别语音会话进行切分,以保证语句的完整性。上述步骤102可包括:通过静音检测技术,对待识别语音会话进行切分,得到多个语音片段。步骤103:利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份。其中,所述多个语言模型是区分角色的,每个语言模型对应于一个角色;所述多个声学模型是区分角色的,每个声学模型对应于一个角色。本专利技术实施例的角色识别方法,利用预先训练的区分角色的语言模型和声学模型,识别得到待识别语音会话中的每个语音片段的说话人身份,可以利用已知说话人身份的语音信息,充分考虑声学特征以及文本特征,实现对语音会话的识别,从而相比于无监督的聚类方法,可控性更高,实现对相应语音片段的说话人身份的有效识别。本专利技术实施例中,上述多个语言模型和多个声学模型可利用训练数据集预先训练得到,而为了保证后续识别的准确性,语言模型和声学模型所需的训练数据集优选保持一致。可选的,上述步骤101之前,所述方法还可包括:获取训练数据集;其中,所述训练数据集中包括多个角色的语音会话;至于每个语音会话中的角色个数可依情况而定;对所述多个角色的语音会话进行切分,得到每个角色的语音片段;此切分的方式可采用现有方式,优选可通过静音检测技术进行切分;利用所述每个角色的语音片段,分别训练预先构建的语言模型,得到每个角色对应的语言模型;利用所述每个角色的语音片段,分别训练预先构建的声学模型,得到每个角色对应的声学模型。这样,可预先训练得到多个区分角色的语言模型和声学模型。需说明的是,在利用语音片段训练语言模型时,可首先结合语音对话中所有角色的对话文本(即语音对话的标注文本)以及一些领域相关或无关的其他文本(增强模型普适性),训练不区分角色的语言模型,用于语音识别引擎对语音对话进行文本转写,然后分别利用每个角色的对话文本,训练得到对应的语言模型,即一个角色对应一个语言模型。具体应用中,通过语言模型可获得对应语音片段(即文本片段)的困惑度值(可在困惑度值前面添加一个负号,使其与角色判断可能性成正比,作为语言模型的得分),困惑度值越低获得的得分越高,困惑度值越低说明该语音片段属于对应角色的可能性越高。在利用语音片段训练声学模型时,可首先将语音片段分割为多个语音帧,并提取多个语音帧中每个语音帧的谱特征;然后分别利用每个角色的语音帧的谱特征,训练得到对应的声学模型,即一个角色对应一个声学模型。上述语音帧的谱特征可选为梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC本文档来自技高网...

【技术保护点】
1.一种语音会话的角色识别方法,其特征在于,包括:/n获取待识别语音会话;/n对所述待识别语音会话进行切分,得到多个语音片段;/n利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份;/n其中,所述多个语言模型是区分角色的,每个语言模型对应于一个角色;所述多个声学模型是区分角色的,每个声学模型对应于一个角色。/n

【技术特征摘要】
1.一种语音会话的角色识别方法,其特征在于,包括:
获取待识别语音会话;
对所述待识别语音会话进行切分,得到多个语音片段;
利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份;
其中,所述多个语言模型是区分角色的,每个语言模型对应于一个角色;所述多个声学模型是区分角色的,每个声学模型对应于一个角色。


2.根据权利要求1所述的方法,其特征在于,所述利用预先训练的多个语言模型和多个声学模型,识别得到所述多个语音片段中的每个语音片段的说话人身份,包括:
针对所述多个语音片段中的每个语音片段,分别执行如下步骤:
将所述语音片段分别输入到所述多个语言模型中,得到所述语音片段属于每个角色时的第一得分;
将所述语音片段分别输入到所述多个声学模型中,得到所述语音片段属于每个角色时的第二得分;
根据所述第一得分和所述第二得分,确定所述语音片段的说话人身份。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第一得分和所述第二得分,确定所述语音片段的说话人身份,包括:
针对每个角色,对所述第一得分和所述第二得分进行加权求和,得到所述语音片段属于每个角色时的第三得分;
将所述第三得分中的最高得分对应的角色,确定为所述语音片段的说话人身份。


4.根据权利要求2所述的方法,其特征在于,所述根据所述第一得分和所述第二得分,确定所述语音片段的说话人身份,包括:
将所述第一得分中的最高得分对应的角色,确定为所述语音片段的第一说话人身份;
将所述第二得分中的最高得分对应的角色,确定为所述语音片段的第二说话人身份;
当所述第一说话人身份与所述第二说话人身份相同时,将所述第一说话人身份或所述第二说话人身份确定为所述语音片段的说话人身份;
或者,
当所述第一说话人身份与所述第二说话人身份不相同时,计算第一差值与第一最高得分的第一比值,计算第二差值与第二最高得分的第二比值,和将所述第一比值和所述第二比值中的最大比值对应的说话人身份,确定为所述语音片段的说话人身份;
其中,所述第一差值为所述第一得分中的最高得分和最小得分的差值,所述第一最高得分为所述第一得分中的最高得分;所述第二差值为所述第二得分中的最高得分和最小得分的差值,所述第二最高得分为所述第二得分中的最高得分。


5.根据权利要求2所述的方法,其特征在于,所述将所述语音片段分别输入到所述多个声学模型中,得到所述语音片段属于每个角色时的第二得分,包括:
对所述语音片段进行分帧,得到多个语音帧;
对所述多个语音帧进行特征提取,获得所述多个语音帧中每个语音帧的谱特征;
将所述每个语音帧的谱特征分别输入到所述多个声学模型中,得到所述每个语音帧属于每个角色时的第四得分;

【专利技术属性】
技术研发人员:高莹莹
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1