公开了一种语音分析器和相关方法,所述语音分析器包括:输入模块,用于基于语音信号提供语音数据;主要特征提取器,用于提供语音数据的主要特征指标;次要特征提取器,用于提供与语音数据相关联的次要特征指标;以及语音模型模块,所述语音模型模块包括具有模型层的神经网络,所述模型层包括输入层、包括第一中间层的一个或多个中间层、以及用于提供说话者指标的输出层,其中,所述语音模型模块被配置为基于次要特征指标来调节中间层,用于提供来自中间层的输出,作为在神经网络中的中间层之后的模型层的输入。的模型层的输入。的模型层的输入。
【技术实现步骤摘要】
语音分析器和相关方法
[0001]本公开涉及语音处理和相关工具和方法,以及尤其用于分析、监控和/或评估一个或多个说话者的语音的系统。因此,提供了一种语音分析器和相关方法,特别是确定说话者指标的方法。
技术介绍
[0002]情感计算社区长期以来一直在寻找一种有效的方法来使用多模态信息的组合来自动识别说话者的状态和/或特点。例如,先前在情绪表达和感知方面的研究表明,包括视觉、文本和声学模态在内的不同模态在有效的说话者状态和/或特点确定中起作用。
[0003]然而,存在许多应用场景,这些场景中,只有这些模态的子集可用。
技术实现思路
[0004]因此,需要具有改进的说话者指标确定/识别的系统、电子装置和方法。
[0005]提供了一种语音分析器,该语音分析器包括:输入模块,用于基于语音信号提供语音数据;主要特征提取器,用于提供语音数据的主要特征指标;次要特征提取器,用于提供与语音数据相关联的次要特征指标;以及语音模型模块,所述语音模型模块包括具有模型层的神经网络,所述模型层包括输入层、包括第一中间层的一个或多个中间层、以及用于提供说话者指标的输出层。所述语音模型模块可选地被配置为调节一个或多个模型层,例如,被配置为基于次要特征指标来调节中间层,用于提供来自中间层的输出,作为在神经网络中的中间层之后的模型层的输入。
[0006]还公开了一种确定说话者指标的方法,所述方法包括:获得语音数据;基于语音数据确定主要特征指标;确定与语音数据相关联的次要特征指标;并且基于主要特征指标和次要特征指标来确定说话者状态。确定说话者指标包括应用语音模型,所述语音模型包括具有多个模型层的神经网络,所述多个模型层包括输入层、包括第一中间层的一个或多个中间层以及输出层。应用语音模型包括基于次要特征指标来调节一个或多个模型层,例如,基于次要特征指标来调节中间层,用于提供在神经网络中的中间层之后的模型层的输入。
[0007]此外,公开了一种电子装置,该电子装置包括处理器、存储器和接口,其中,处理器被配置为执行根据本公开的任何方法的全部或至少一部分。
[0008]本公开的优点在于,可以从多个模态的输入中确定说话者指标,例如,说话者状态(例如,情绪、困倦、健康状态)和特点(例如,年龄、方言),而不需要跨模态的输入的精确(时间)对齐。
[0009]此外,本公开提供了一种改进的神经网络模型架构,其有效且异步地处理多个模态的融合。
[0010]此外,本公开通过利用文本和声学信息并且在多个神经网络层上整体地和异步地融合它们来提供说话者指标建模/确定的改进的准确性。
附图说明
[0011]通过参照附图对本专利技术的示例性实施例的以下详细描述,本专利技术的上述和其他特征和优点对于本领域技术人员来说将变得显而易见,其中:
[0012]图1示意性地示出了根据本公开的示例性语音分析器;
[0013]图2示意性地示出了根据本公开的示例性语音分析器;
[0014]图3示出了输入层的示例性调节;
[0015]图4示出了中间层的示例性调节;以及
[0016]图5是根据本公开的示例性方法的流程图。
具体实施方式
[0017]下文将参考相关附图描述各种示例性实施例和细节。应当注意,附图可以按比例绘制,也可以不按比例绘制,并且在所有附图中,相似结构或功能的元件由相同的附图标记表示。还应当注意,附图仅旨在便于实施例的描述。它们不是对本专利技术的详尽描述,也不是对本专利技术范围的限制。此外,所示实施例不需要具有所示的所有方面或优点。结合特定实施例描述的方面或优点不一定限于该实施例,并且可以在任何其他实施例中实践,即使没有如此示出,或者如果没有如此明确描述。
[0018]公开了一种语音分析器。语音分析器可以在电子装置中实现。该电子装置包括接口、处理器和存储器。电子装置例如可以是或包括移动电话,例如,智能手机,计算机,例如,膝上型计算机或PC,或平板计算机。电子装置可以是服务器装置。
[0019]语音分析器包括用于基于语音信号提供语音数据的输入模块。输入模块可以形成电子装置的接口的一部分。输入模块被配置为接收语音信号。语音信号可以是实时馈送到输入模块的音频流。可以从例如存储在存储器中的音频文件中检索语音信号。
[0020]语音分析器包括用于提供语音数据的主要特征指标的主要特征提取器。主要特征提取器被配置为确定或提取也表示为PFM_1、PFM_2、
…
、PFM_NP的一个或多个主要特征指标,其中,NP是语音数据的数量或主要特征指标。换言之,主要特征指标可以被统称为PFM=(PFM_1,PFM_2,
…
,PFM_NP)。在一个或多个示例性语音分析器中,主要特征指标的数量NP可以在每帧1到100的范围内,例如,在每帧20到50个主要特征指标的范围内。在一个或多个示例性语音分析器中,主要特征指标作为输入变量被直接馈送到语音模型的输入层。
[0021]主要特征指标表示语音信号的主要特征。主要特征提取器可以是声学特征提取器,其被配置为提供声学特征,作为主要特征指标。换言之,主要特征指标可以是指示语音信号的声学特征的声学特征指标。
[0022]在一个或多个示例性语音分析器中,主要特征提取器可以是语言特征提取器,其被配置为提供语言特征,作为主要特征指标。
[0023]语音信号的声学特征可以包括一个或多个数字(量化和采样)音频样本,例如,脉冲编码调制(PCM)特征。
[0024]声学特征可以包括一个或多个谱图特征,例如,log
‑
Mel、log
‑
Bark、Mel和Bark尺度谱或线性幅度谱(例如,经由短时傅立叶变换(STFT)得到的)中的一个或多个。
[0025]声学特征可以包括例如来自小波或伽马通(gammatone)变换的chochleagrams、色谱图(chromagrams)(半音音阶上的谱)和比例尺寸图(scaleogram)特征中的一个或多个。
[0026]声学特征可以包括一个或多个倒谱特征,例如,梅尔频率倒谱系数(MFCC)和/或感知线性预测编码倒谱系数(PLP
‑
CC)。
[0027]声学特征可以包括一个或多个线性预测编码(LPC)系数和/或剩余的LPC残余信号。
[0028]声学特征可以包括声门发音语音特征、发音语音特征和语音质量特征中的一个或多个,例如,抖动、匀场、谐波噪声比等。
[0029]声学特征可以包括一个或多个光谱统计特征,例如,光谱滚降点、光谱斜率和光谱熵中的一个或多个。
[0030]声学特征可以包括一个或多个频谱包络特征(例如,共振峰)和/或韵律特征,例如,音调、基频、信号能量、强度、响度。
[0031]声学特征/声学特征指标通常在固定的时间单位(=帧)上计算,该时间单位通常在20ms到60ms的范围内。帧数被表示为NF_PFM。25ms的帧长度/持续时间可能是优选的。帧可以优选地重叠,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音分析器,包括:输入模块,用于基于语音信号提供语音数据;主要特征提取器,用于提供所述语音数据的主要特征指标;次要特征提取器,用于提供与所述语音数据相关联的次要特征指标;以及语音模型模块,包括具有模型层的神经网络,所述模型层包括输入层、包括第一中间层的一个或多个中间层以及用于提供说话者指标的输出层,其中,所述语音模型模块被配置为基于所述次要特征指标来调节中间层,用于提供来自所述中间层的输出,作为到在神经网络中的所述中间层之后的模型层的输入。2.根据权利要求1所述的语音分析器,其中,所述语音模型包括多个中间层,并且其中,所述语音模型模块被配置为基于所述次要特征指标来调节所述多个中间层中的至少两个。3.根据权利要求2所述的语音分析器,其中,所述语音模型包括至少三个中间层,并且其中,所述语音模型模块被配置为基于所述次要特征指标来调节每个中间层。4.根据权利要求3所述的语音分析器,其中,所述语音模型的中间层具有相同维度的输出,并且其中,调节中间层包括通过线性坐标变换来调整所述次要特征指标的维度,用于将所述次要特征指标匹配到所述中间层的输出。5.根据权利要求1
‑
4中任一项所述的语音分析器,其中,所述语音模型模块被配置为基于所述次要特征指标来调节所述输入层,用于提供来自所述输入层的输出。6.根据权利要求5所述的语音分析器,其中,调节所述输入层包括将所述次要特征指标与所述主要特征指标融合,用于向输入层处理提供输入。7.根据权利要求1
‑
6中任一项所述的语音分析器,其中,基于所述次要特征指标来调节中间层包括将所述次要特征指标与所述中间层的中间层处理的输出融合,用于提供来自所述中间层的输出,作为到所述神经网络中的所述中间层之后...
【专利技术属性】
技术研发人员:弗洛里安,
申请(专利权)人:艾于德埃林公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。