音频交互中的情绪检测制造技术

技术编号:34205556 阅读:38 留言:0更新日期:2022-07-20 11:47
本发明专利技术公开了一种方法,该方法包括:接收包括语音信号的多个音频片段,其中音频片段表示多个言语交互;接收与在音频片段中的每个音频片段中表达的情绪状态相关联的标签;基于指定的帧持续时间,将音频片段中的每个音频片段划分成多个帧;从帧中的每个帧提取多个声学特征;相对于表示音频片段中的音素边界的帧序列,计算声学特征的统计数据;在训练阶段,在训练集上训练机器学习模型,该训练集包括:与音频片段相关联的统计数据,和标签;以及在推理阶段,将训练后的模型应用于包括语音信号的一个或多个目标音频片段,以检测在目标音频片段中表达的情绪状态。中表达的情绪状态。中表达的情绪状态。

【技术实现步骤摘要】
【国外来华专利技术】音频交互中的情绪检测
[0001]要求优先权
[0002]本申请涉及2019年12月20日提交的标题为“EMOTION DETECTION IN AUDIO INTERACTIONS”的美国专利申请16/723,154,并要求该专利申请的优先权。

技术介绍

[0003]本专利技术涉及自动的计算机化的情绪检测领域。
[0004]许多商业企业每天与客户、用户或其他人员进行多次音频交互并将其记录下来。在许多情况下,这些组织可能希望从交互中提取尽可能多的信息,例如以提高客户满意度并防止客户流失。
[0005]客户语音中所传达的负面情绪的量度是客户满意度的关键性能指标。另外,处理客户对组织代表提供的服务的情绪响应提高了客户满意度并减少了客户流失。
[0006]相关领域的前述示例和与其相关的限制旨在为例示性的而非排他性的。在阅读说明书和研究附图后,相关领域的其它限制对于本领域技术人员将变得显而易见。

技术实现思路

[0007]结合系统、工具和方法描述和说明以下实施方案及其方面,该系统、工具和方法旨在为示例性和说明性的,并且范围不受限制。
[0008]在一个实施方案中,提供了一种方法,该方法包括:接收包括语音信号的多个音频片段,其中所述音频片段表示多个言语交互;接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签;基于指定的帧持续时间,将所述音频片段中的每个音频片段划分成多个帧;从所述帧中的每个帧提取多个声学特征;相对于表示所述音频片段中的音素边界的帧序列,计算所述声学特征的统计数据;在训练阶段,在训练集上训练机器学习模型,该训练集包括:(i)与所述音频片段相关联的所述统计数据,和(ii)所述标签;以及在推理阶段,将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段,以检测在所述目标音频片段中表达的情绪状态。
[0009]在一个实施方案中,还提供了一种系统,该系统包括:至少一个硬件处理器;和非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有程序指令,该程序指令可由至少一个硬件处理器执行以:接收包括语音信号的多个音频片段,其中所述音频片段表示多个言语交互;接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签;基于指定的帧持续时间,将所述音频片段中的每个音频片段划分成多个帧;从所述帧中的每个帧提取多个声学特征;相对于表示所述音频片段中的音素边界的帧序列,计算所述声学特征的统计数据;在训练阶段,在训练集上训练机器学习模型,该训练集包括:(i)与所述音频片段相关联的所述统计数据,和(ii)所述标签;以及在推理阶段,将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段,以检测在所述目标音频片段中表达的情绪状态。
[0010]在一个实施方案中,还提供了一种计算机程序产品,该计算机程序产品包括非暂
态计算机可读存储介质,该非暂态计算机可读存储介质在其中包含有程序指令,该程序指令可由至少一个硬件处理器执行以:接收包括语音信号的多个音频片段,其中所述音频片段表示多个言语交互;接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签;基于指定的帧持续时间,将所述音频片段中的每个音频片段划分成多个帧;从所述帧中的每个帧提取多个声学特征;相对于表示所述音频片段中的音素边界的帧序列,计算所述声学特征的统计数据;在训练阶段,在训练集上训练机器学习模型,该训练集包括:(i)与所述音频片段相关联的所述统计数据,和(ii)所述标签;以及在推理阶段,将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段,以检测在所述目标音频片段中表达的情绪状态。
[0011]在一些实施方案中,音频片段基于其与所述言语交互中的指定交互的关联而以时间序列布置。
[0012]在一些实施方案中,至少部分地基于所述音频片段中的所述语音信号的连续性来确定所述时间序列的边界。
[0013]在一些实施方案中,相对于所述按时间排序的音频片段计算统计数据,并且其中所述标签与在所述音频片段中表达的情绪状态相关联。
[0014]在一些实施方案中,训练集还包括由所述音素边界限定的音素的向量表示。
[0015]在一些实施方案中,情绪状态是中性和负面中的一种。
[0016]在一些实施方案中,声学特征选自由以下项构成的组:梅尔频率倒谱系数(MFCC)、清浊比(POV)特征;音高特征;截止频率;信噪比(SNR)特性;语音描述符;声道特性;音量;信号能量;频谱分布;倾斜;锐度;频谱通量;色度特征;和过零率(ZCR)。
[0017]在一些实施方案中,统计数据选自由以下项构成的组:平均值和标准偏差。
[0018]在一些实施方案中,基于将语音转文本机器学习模型应用于所述音频片段来获取音素边界。
[0019]在一些实施方案中,提取还包括特征归一化阶段,并且其中所述归一化相对于以下中的至少一者执行:与所有所述帧相关联的特征;与在所述言语交互中的交互内表示特定说话者的语音的帧相关联的特征;以及与在所述言语交互中的交互内表示与特定说话者的语音相关联的音素边界的所述帧序列相关联的特征。
[0020]在一些实施方案中,言语交互表示客户与呼叫中心座席之间的交谈。
[0021]在一些实施方案中,从所述训练集中移除包括表示所述座席的语音的语音信号的所述音频片段中的那些音频片段。
[0022]在一些实施方案中,目标音频片段是来自单个言语交互的音频片段的时间序列。
[0023]除了上文所描述的示例性方面和实施方案之外,另外的方面和实施方案通过参考附图并且通过研究以下详细描述将变得显而易见。
附图说明
[0024]在参考图中示出了示例性实施方案。图中所示的部件和特征部的尺寸通常为简洁和陈述的清楚性起见而选择,并且不一定按比例示出。下面列出了附图。
[0025]图1示出了根据本专利技术的一些实施方案的示例性帧级特征提取方案;
[0026]图2示出了根据本专利技术的一些实施方案的从帧级特征计算的中期特征;
[0027]图3示出了根据本公开的本专利技术的一些实施方案的示例性神经网络;并且
[0028]图4是示出根据本公开的本专利技术的一些实施方案的用于训练机器学习模型以对包括语音的音频片段进行分类的过程中的功能步骤的流程图。
具体实施方式
[0029]本文公开了用于语音信号中的自动化和准确的情绪识别和/或检测的方法、系统和计算机程序产品。
[0030]在一些实施方案中,本公开提供了一种机器学习模型,该机器学习模型被训练以基于在音频片段中由说话者表达的所检测到的情绪来对包括语音的一个或多个音频片段进行分类。
[0031]在一些实施方案中,在训练集上训练机器学习模型,该训练集包括从包括语音话语的多个音频片段中提取的声学特征,其中用说话者表达的相关联的情绪例如负面或中性情绪对音频片段进行手动标注。
[0032]在一些实施方案中,能够以在语音信号中检测到的音素级从该语音信号中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,所述方法包括:接收包括语音信号的多个音频片段,其中所述音频片段表示多个言语交互;接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签;基于指定的帧持续时间将所述音频片段中的每个音频片段划分为多个帧;从所述帧中的每个帧提取多个声学特征;相对于表示所述音频片段中的音素边界的帧序列,计算所述声学特征的统计数据;在训练阶段,在训练集上训练机器学习模型,所述训练集包括:(i)与所述音频片段相关联的所述统计数据,和(ii)所述标签;以及在推理阶段,将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段,以检测在所述目标音频片段中表达的情绪状态。2.根据权利要求1所述的方法,其中所述音频片段基于其与所述言语交互中的指定交互的关联而以时间序列布置。3.根据权利要求2所述的方法,其中至少部分地基于所述音频片段中的所述语音信号的连续性来确定所述时间序列的边界。4.根据权利要求2所述的方法,其中相对于所述按时间排序的音频片段计算所述统计数据,并且其中所述标签与在所述音频片段中表达的情绪状态相关联。5.根据权利要求1所述的方法,其中所述训练集还包括由所述音素边界限定的音素的向量表示。6.根据权利要求1所述的方法,其中所述情绪状态是中性和负面中的一者。7.根据权利要求1所述的方法,其中所述声学特征选自由以下项构成的组:梅尔频率倒谱系数(MFCC)、清浊比(POV)特征;音高特征;截止频率;信噪比(SNR)特性;语音描述符;声道特性;音量;信号能量;频谱分布;倾斜;锐度;频谱通量;色度特征;和过零率(ZCR)。8.根据权利要求1所述的方法,其中所述统计数据选自由以下项构成的组:平均值和标准偏差。9.根据权利要求1所述的方法,其中基于将语音转文本机器学习模型应用于所述音频片段来获取所述音素边界。10.根据权利要求1所述的方法,其中所述提取还包括特征归一化阶段,并且其中所述归一化相对于以下中的至少一者执行:与所有所述帧相关联的特征;与在所述言语交互中的交互内表示特定说话者的语音的帧相关联的特征;以及与在所述言语交互中的交互内表示与特定说话者的语音相关联的音素边界的所述帧序列相关联的特征。11.根据权利要求1所述的方法,其中所述言语交互表示客户与呼叫中心座席之间的交谈。12.根据权利要求11所述的方法,其中从所述训练集中移除包括表示所述座席的语音的语音信号的所述音频片段中的那些音频片段。13.根据权利要求1所述的方法,其中所述目标音频片段是来自单个言语交互的音频片段的时间序列。14.一种系统,所述系统包括:至少一个硬件处理器;和
非暂态计算机可读存储介质,所述非暂态计算机可读存储介质具有存储于其上的程序指令,所述程序指令能够由所述至少一个硬件处理器执行以:接收包括语音信号的多个音频片段,其中所述音频片段表示多个言语交互;接收与在所述音频片段中的每个音频片段中表达的情绪状态相关联的标签;基于指定的帧持续时间,将所述音频片段中的每个音频片段划分成多个帧;从所述帧中的每个帧提取多个声学特征;相对于表示所述音频片段中的音素边界的帧序列,计算所述声学特征的统计数据;在训练阶段,在训练集上训练机器学习模型,所述训练集包括:(i)与所述音频片段相关联的所述统计数据,和(ii)所述标签;以及在推理阶段,将所述训练后的机器学习模型应用于包括语音信号的一个或多个目标音频片段,以检测在所述目标音频片段中表达的情绪状态。15.根据权利要求14所述的系统,其中所述音频片段基于其与所述言语交互中的指定交互的关联而以时间序列布置。16.根据权利要求15所述的系统,其中至少部分地基于所述音频片段中的所述语音信号的连续性来确定所述时间序列的边界。17.根据权利要求15所述的系统,其中相对于所述按时间排序的音频片段计算所述统计数据,并且其中所述标签与在所述音频片段中表达的情绪状态相关联。18.根据权利要求14所述的系统,其中所述训练集还包括由所述音素边界限定的音素的向量表示。19.根据权利要求14所述的系统,其中所述情绪状态是中性和负面中的一者。20.根据权利要求14所述的系统,其中所述声学特征选自由以下项构...

【专利技术属性】
技术研发人员:A
申请(专利权)人:格林伊登美国控股有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1