音频交互中的情绪检测制造技术

技术编号：34205556 阅读：47 留言：0更新日期：2022-07-20 11:47

本发明专利技术公开了一种方法，该方法包括：接收包括语音信号的多个音频片段，其中音频片段表示多个言语交互；接收与在音频片段中的每个音频片段中表达的情绪状态相关联的标签；基于指定的帧持续时间，将音频片段中的每个音频片段划分成多个帧；从帧中的每个帧提取多个声学特征；相对于表示音频片段中的音素边界的帧序列，计算声学特征的统计数据；在训练阶段，在训练集上训练机器学习模型，该训练集包括：与音频片段相关联的统计数据，和标签；以及在推理阶段，将训练后的模型应用于包括语音信号的一个或多个目标音频片段，以检测在目标音频片段中表达的情绪状态。中表达的情绪状态。中表达的情绪状态。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】音频交互中的情绪检测
[0001]要求优先权
[0002]本申请涉及2019年12月20日提交的标题为“EMOTION DETECTION IN AUDIO INTERACTIONS”的美国专利申请16/723,154，并要求该专利申请的优先权。

技术介绍

[0003]本专利技术涉及自动的计算机化的情绪检测领域。
[0004]许多商业企业每天与客户、用户或其他人员进行多次音频交互并将其记录下来。在许多情况下，这些组织可能希望从交互中提取尽可能多的信息，例如以提高客户满意度并防止客户流失。
[0005]客户语音中所传达的负面情绪的量度是客户满意度的关键性能指标。另外，处理客户对组织代表提供的服务的情绪响应提高了客户满意度并减少了客户流失。
[0006]相关领域的前述示例和与其相关的限制旨在为例示性的而非排他性的。在阅读说明书和研究附图后，相关领域的其它限制对于本领域技术人员将变得显而易见。

技术实现思路

[0007]结合系统、工具和方法描述和说明以下实施方案及其方面，该系统、工具和方法旨在为示例性和说明性的，并且范围不受限制。
[0008]在一个实施方案中，提供了一种方法，该方法包括：接收包括语音信号的多个音频片段，其中所述音频片段表示多个言语交互；接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签；基于指定的帧持续时间，将所述音频片段中的每个音频片段划分成多个帧；从所述帧中的每个帧提取多个声学特征；相对于表示所述音频片段中的音素边界的帧序列，计算所述声学特征的统计数...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，所述方法包括：接收包括语音信号的多个音频片段，其中所述音频片段表示多个言语交互；接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签；基于指定的帧持续时间将所述音频片段中的每个音频片段划分为多个帧；从所述帧中的每个帧提取多个声学特征；相对于表示所述音频片段中的音素边界的帧序列，计算所述声学特征的统计数据；在训练阶段，在训练集上训练机器学习模型，所述训练集包括：(i)与所述音频片段相关联的所述统计数据，和(ii)所述标签；以及在推理阶段，将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段，以检测在所述目标音频片段中表达的情绪状态。2.根据权利要求1所述的方法，其中所述音频片段基于其与所述言语交互中的指定交互的关联而以时间序列布置。3.根据权利要求2所述的方法，其中至少部分地基于所述音频片段中的所述语音信号的连续性来确定所述时间序列的边界。4.根据权利要求2所述的方法，其中相对于所述按时间排序的音频片段计算所述统计数据，并且其中所述标签与在所述音频片段中表达的情绪状态相关联。5.根据权利要求1所述的方法，其中所述训练集还包括由所述音素边界限定的音素的向量表示。6.根据权利要求1所述的方法，其中所述情绪状态是中性和负面中的一者。7.根据权利要求1所述的方法，其中所述声学特征选自由以下项构成的组：梅尔频率倒谱系数(MFCC)、清浊比(POV)特征；音高特征；截止频率；信噪比(SNR)特性；语音描述符；声道特性；音量；信号能量；频谱分布；倾斜；锐度；频谱通量；色度特征；和过零率(ZCR)。8.根据权利要求1所述的方法，其中所述统计数据选自由以下项构成的组：平均值和标准偏差。9.根据权利要求1所述的方法，其中基于将语音转文本机器学习模型应用于所述音频片段来获取所述音素边界。10.根据权利要求1所述的方法，其中所述提取还包括特征归一化阶段，并且其中所述归一化相对于以下中的至少一者执行：与所有所述帧相关联的特征；与在所述言语交互中的交互内表示特定说话者的语音的帧相关联的特征；以及与在所述言语交互中的交互内表示与特定说话者的语音相关联的音素边界的所述帧序列相关联的特征。11.根据权利要求1所述的方法，其中所述言语交互表示客户与呼叫中心座席之间的交谈。12.根据权利要求11所述的方法，其中从所述训练集中移除包括表示所述座席的语音的语音信号的所述音频片段中的那些音频片段。13.根据权利要求1所述的方法，其中所述目标音频片段是来自单个言语交互的音频片段的时间序列。14.一种系统，所述系统包括：至少一个硬件处理器；和
非暂态计算机可读存储介质，所述非暂态计算机可读存储介质具有存储于其上的程序指令，所述程序指令能够由所述至少一个硬件处理器执行以：接收包括语音信号的多个音频片段，其中所述音频片段表示多个言语交互；接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签；基于指定的帧持续时间，将所述音频片段中的每个音频片段划分成多个帧；从所述帧中的每个帧提取多个声学特征；相对于表示所述音频片段中的音素边界的帧序列，计算所述声学特征的统计数据；在训练阶段，在训练集上训练机器学习模型，所述训练集包括：(i)与所述音频片段相关联的所述统计数据，和(ii)所述标签；以及在推理阶段，将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段，以检测在所述目标音频片段中表达的情绪状态。15.根据权利要求14所述的系统，其中所述音频片段基于其与所述言语交互中的指定交互的关联而以时间序列布置。16.根据权利要求15所述的系统，其中至少部分地基于所述音频片段中的所述语音信号的连续性来确定所述时间序列的边界。17.根据权利要求15所述的系统，其中相对于所述按时间排序的音频片段计算所述统计数据，并且其中所述标签与在所述音频片段中表达的情绪状态相关联。18.根据权利要求14所述的系统，其中所述训练集还包括由所述音素边界限定的音素的向量表示。19.根据权利要求14所述的系统，其中所述情绪状态是中性和负面中的一者。20.根据权利要求14所述的系统，其中所述声学特征选自由以下项构...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：格林伊登美国控股有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人