一种语音会话的角色识别方法、装置及终端制造方法及图纸

技术编号：25401981 阅读：46 留言：0更新日期：2020-08-25 23:06

本发明专利技术提供一种语音会话的角色识别方法、装置及终端，该角色识别方法包括：获取待识别语音会话；对所述待识别语音会话进行切分，得到多个语音片段；利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色。本发明专利技术的实施例，可以利用已知说话人身份的语音信息，充分考虑声学特征以及文本特征，实现对语音会话的识别，从而实现对相应语音片段的说话人身份的有效识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音会话的角色识别方法、装置及终端
本专利技术涉及数据处理
，尤其涉及一种语音会话的角色识别方法、装置及终端。
技术介绍
目前，在对记录的语音会话进行角色识别时，主要涉及两个模块：切分模块和聚类模块。其中，切分模块主要负责检测语音会话中说话人身份的改变点，并利用这些改变点将语音会话分割成多个语音片段；聚类模块通常采用k-means等聚类方法，将属于同一说话人身份的语音片段聚类在一起，并根据聚类结果，得到该语音会话中说话人个数以及各说话人的语音。然而，由于聚类模块采用的聚类方法通常为无监督的，仅基于语音片段的特征进行聚类，而不同说话人的语音片段之间的特征差异可能非常小，几乎没有，因此得到的聚类结果的效果往往较差，造成无法对相应语音片段的说话人身份进行有效识别。
技术实现思路
本专利技术实施例提供一种语音会话的角色识别方法、装置及终端，以解决现有的语音会话的角色识别方法中，无法对语音片段的说话人身份进行有效识别的问题。第一方面，本专利技术实施例提供了一种语音会话的角色识别方法，包括：获取待识别语音会话；对所述待识别语音会话进行切分，得到多个语音片段；利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色。第二方面，本专利技术实施例提供了一种语音会话的角色识别装置，包括：...

【技术保护点】
1.一种语音会话的角色识别方法，其特征在于，包括：/n获取待识别语音会话；/n对所述待识别语音会话进行切分，得到多个语音片段；/n利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；/n其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色。/n

【技术特征摘要】
1.一种语音会话的角色识别方法，其特征在于，包括：
获取待识别语音会话；
对所述待识别语音会话进行切分，得到多个语音片段；
利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份；
其中，所述多个语言模型是区分角色的，每个语言模型对应于一个角色；所述多个声学模型是区分角色的，每个声学模型对应于一个角色。

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练的多个语言模型和多个声学模型，识别得到所述多个语音片段中的每个语音片段的说话人身份，包括：
针对所述多个语音片段中的每个语音片段，分别执行如下步骤：
将所述语音片段分别输入到所述多个语言模型中，得到所述语音片段属于每个角色时的第一得分；
将所述语音片段分别输入到所述多个声学模型中，得到所述语音片段属于每个角色时的第二得分；
根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份，包括：
针对每个角色，对所述第一得分和所述第二得分进行加权求和，得到所述语音片段属于每个角色时的第三得分；
将所述第三得分中的最高得分对应的角色，确定为所述语音片段的说话人身份。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一得分和所述第二得分，确定所述语音片段的说话人身份，包括：
将所述第一得分中的最高得分对应的角色，确定为所述语音片段的第一说话人身份；
将所述第二得分中的最高得分对应的角色，确定为所述语音片段的第二说话人身份；
当所述第一说话人身份与所述第二说话人身份相同时，将所述第一说话人身份或所述第二说话人身份确定为所述语音片段的说话人身份；
或者，
当所述第一说话人身份与所述第二说话人身份不相同时，计算第一差值与第一最高得分的第一比值，计算第二差值与第二最高得分的第二比值，和将所述第一比值和所述第二比值中的最大比值对应的说话人身份，确定为所述语音片段的说话人身份；
其中，所述第一差值为所述第一得分中的最高得分和最小得分的差值，所述第一最高得分为所述第一得分中的最高得分；所述第二差值为所述第二得分中的最高得分和最小得分的差值，所述第二最高得分为所述第二得分中的最高得分。

5.根据权利要求2所述的方法，其特征在于，所述将所述语音片段分别输入到所述多个声学模型中，得到所述语音片段属于每个角色时的第二得分，包括：
对所述语音片段进行分帧，得到多个语音帧；
对所述多个语音帧进行特征提取，获得所述多个语音帧中每个语音帧的谱特征；
将所述每个语音帧的谱特征分别输入到所述多个声学模型中，得到所述每个语音帧属于每个角色时的第四得分；

【专利技术属性】
技术研发人员：高莹莹，
申请(专利权)人：中国移动通信有限公司研究院，中国移动通信集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人