一种语音对话质量评价方法、系统与便携式电子设备技术方案

技术编号:38458298 阅读:11 留言:0更新日期:2023-08-11 14:35
本发明专利技术公开了一种语音对话质量评价方法、系统与便携式电子设备,属于语音质量评价技术领域。该方法包括:步骤S100:解析待评价语音对话获得第一交互属性;S200:将待评价语音对话切分为多个语音片段组;S300:获得每个语音片段组中每一个语音子片段的第二时长属性;S400:从每个语音片段组中确定至少一个候选子片段;S500:对已有的至少一种语音质量评价模型进行训练更新,得到更新后的语音质量评价模型;S600:将每个语音片段组中除候选子片段之外的语音子片段输入至更新后的语音质量评价模型中,得出每个语音片段组对应的目标人物的语音质量评价得分。本发明专利技术可准确实现多人物语音对话的无参考质量评分输出。音对话的无参考质量评分输出。音对话的无参考质量评分输出。

【技术实现步骤摘要】
一种语音对话质量评价方法、系统与便携式电子设备


[0001]本专利技术涉及语音质量评价
,尤其涉及一种语音对话质量评价方法、系统与便携式电子设备。

技术介绍

[0002]声音是人类认识世界、感知世界的主要途径之一。随着网络的全面普及,网络音频业务取得了快速的发展。当音频的质量较差时,需要对其进行增强处理以提高音频质量。在音频领域中,当前流行的大多数音频评价平台仅仅根据音频的一两个参数作为评价音频质量的标准,而这其实并不合理,因为首先音频质量与人类听觉系统有关,受多种因素影响,不能仅仅根据一两个简单的参数来衡量。
[0003]随着质量综合评价体系的逐渐完善,演化出两种对音频质量进行评估的方法:主观评估和客观评估。主观评估方法中,通过组织测试人员,根据国际电信联盟电信标准分局(ITU

T)P.800标准,对一系列音频序列进行测听,统计测试人员对语音质量的评估结果以获得评估结果的平均值,最终的音频质量评估结果表示为平均意见分(Mean Opinion Score,“MOS”),MOS值越高表示音频质量越好。但是,主观评估方法存在实验周期长、经济成本高的缺陷。
[0004]客观评估方法被广泛应用于评估音频质量,客观评估方法分为有参考与无参考音频质量评价模型。有参考音频质量评价方法的运作机理是把处理完的语音和无损语音做对比,在对比过程中,首先把声音对齐,找到二者的偏差,对齐后把每个小片段的语音和无损的小片段语音单独放到听觉模型中,看各频段上频率成本的损失、有无额外频率产生,这些频率成分的增减在人的听觉上是否足够显著等,最后做整个时域上做各片段语音损伤情况的平滑、加权平均等,最终映射到单独的语音质量分数。I TU

T历史上主要推出了PSQM(P.861)、PESQ(P.862)、POLQA(P.863)三个著名的模型,目前最被大家接受的是POLQA模型。PSQM、PESQ两个模型仅仅适用于采样频率16KHz以下音频。POLQA模型可以适用于48kHz音频信号,目前该算法还是受保护状态,非公开,使用费用高。并且有参考音频质量评估模型需要提供参考音频,无法在无参考音频的场景下评估音频质量。有参考音频质量评估模型需要提供参考音频,无法在无参考音频的场景下评估音频质量。无参考音频质量评价模型则大多基于深度学习实现,比较有代表性的方法为MOSNET,其采用CNN和BLSTM的网络架构,训练数据来源于The Voice Conversion Challenge(VCC)2018,各项评估指标处于业界前列。时序卷积网络(TCN)已经在机器翻译、交通预测、声音事件检测等领域取得了巨大的成功,其具有性能超过LSTM网络的潜力,另外,VCC2018数据规模有限,如何利用小规模数据充分挖掘数据内部信息从而优化音频评估性能为业界亟待解决的问题。
[0005]在实际应用中,当前的无参考语音质量评价技术使用的深度学习模型对于不同音色的语音适配性不足,现有技术使用的深度学习神经网络都默认采用同一种评价模型对不同来源的语音进行相同的处理评价,没有考虑到多语音环境、尤其是多目标人物多语音对话环境下的语音对话质量评价的适配性和模型更新训练问题。

技术实现思路

[0006]本专利技术的目的是提供一种语音对话质量评价方法、系统与便携式电子设备,能够准确实现多人物语音对话的无参考质量评分输出,使得结果更有针对性与适配性。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种语音对话质量评价方法,包括:包括:
[0009]S100:解析待评价语音对话,获得所述待评价语音对话的第一交互属性;
[0010]S200:基于所述第一交互属性将所述待评价语音对话切分为多个语音片段组,每个语音片段组包含至少一个语音子片段,并且位于同一个语音片段组的多个语音子片段属于同一个目标人物;
[0011]S300:解析每个语音片段组包含的每一个语音子片段,获得每个语音片段组中每一个语音子片段的第二时长属性;
[0012]S400:从每个语音片段组中确定至少一个候选子片段,得到多个候选子片段,所述多个候选子片段的第二时长属性相同;
[0013]S500:以所述多个候选子片段为训练样本,对已有的至少一种语音质量评价模型进行训练更新,得到更新后的语音质量评价模型;
[0014]S600:将每个语音片段组中除候选子片段之外的语音子片段输入至所述更新后的语音质量评价模型中,得出每个语音片段组对应的目标人物的语音质量评价得分;
[0015]所述语音质量评价模型为卷积

时序卷积网络模型。
[0016]进一步的,所述步骤S100中所述第一交互属性用于表征所述待评价语音对话涉及的不同目标人物的第一数量;
[0017]所述步骤S200具体包括:基于所述第一交互属性将所述待评价语音对话切分为第一数量的语音片段组。
[0018]进一步的,所述步骤S300中所述第二时长属性用于表征每一个语音子片段的持续时长。
[0019]进一步的,所述步骤S400中所述多个候选子片段的第二时长属性相同,包括如下情形之一:
[0020]多个候选子片段的持续时长相同;
[0021]多个候选子片段的持续时长的差值的绝对值小于预设上限值。
[0022]进一步的,所述所述卷积

时序卷积网络模型包括前序卷积模块和时序卷积模块;
[0023]所述前序卷积模块对输入的语音子片段进行特征提取;
[0024]所述时序卷积模块包括n个扩张卷积模块构成,每个扩张卷积的扩张因子为2
n
‑1。
[0025]本专利技术还提供了一种语音对话质量评价系统,包括:
[0026]语音解析单元:包括第一交互解析子单元和第二时长解析子单元;所述第一交互解析子单元用于解析待评价语音对话,获得所述待评价语音对话的第一交互属性,并将所述第一交互属性发送至语音分组单元;所述第二时长解析子单元,用于解析每个语音片段组包含的每一个语音子片段,获得每个语音片段组中每一个语音子片段的第二时长属性,并将所述第二时长属性发送至语音候选模块;
[0027]语音分组单元:用于基于所述第一交互属性将所述待评价语音对话切分为第一数量的语音片段组,每个语音片段组包含至少一个语音子片段,并且位于同一个语音片段组
的多个语音子片段属于同一个目标人物;
[0028]语音候选单元:用于从每个语音片段组中确定至少一个候选子片段,得到多个候选子片段,所述多个候选子片段的第二时长属性相同;
[0029]模型训练单元:用于以所述多个候选子片段为训练样本,对已有的至少一种语音质量评价模型进行训练更新,得到更新后的语音质量评价模型;
[0030]评价输出单元:用于将每个语音片段组中除候选子片段之外的语音子片段输入至所述更新后的语音质量评价模型中,并输出每个语音片段组对应的目标人物的语音质量评价得分;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音对话质量评价方法,其特征在于,包括:S100:解析待评价语音对话,获得所述待评价语音对话的第一交互属性;S200:基于所述第一交互属性将所述待评价语音对话切分为多个语音片段组,每个语音片段组包含至少一个语音子片段,并且位于同一个语音片段组的多个语音子片段属于同一个目标人物;S300:解析每个语音片段组包含的每一个语音子片段,获得每个语音片段组中每一个语音子片段的第二时长属性;S400:从每个语音片段组中确定至少一个候选子片段,得到多个候选子片段,所述多个候选子片段的第二时长属性相同;S500:以所述多个候选子片段为训练样本,对已有的至少一种语音质量评价模型进行训练更新,得到更新后的语音质量评价模型;S600:将每个语音片段组中除候选子片段之外的语音子片段输入至所述更新后的语音质量评价模型中,得出每个语音片段组对应的目标人物的语音质量评价得分;所述语音质量评价模型为卷积

时序卷积网络模型。2.根据权利要求1所述的一种语音对话质量评价方法,其特征在于,所述步骤S100中所述第一交互属性用于表征所述待评价语音对话涉及的不同目标人物的第一数量;所述步骤S200具体包括:基于所述第一交互属性将所述待评价语音对话切分为第一数量的语音片段组。3.根据权利要求1所述的一种语音对话质量评价方法,其特征在于,所述步骤S300中所述第二时长属性用于表征每一个语音子片段的持续时长。4.根据权利要求1所述的一种语音对话质量评价方法,其特征在于,所述步骤S400中,所述多个候选子片段的第二时长属性相同,包括如下情形之一:多个候选子片段的持续时长相同;多个候选子片段的持续时长的差值的绝对值小于预设上限值。5.根据权利要求1所述的一种语音对话质量评价方法,其特征在于,所述卷积

时序卷积网络模型包括前序卷积模块和时序卷积模块;所述前序卷积模块对输入的语音子片段进行特征提取;所述时序卷积模块包括n个扩张卷积模块构成,每个扩张卷积模块的扩张因子为2
n
‑1。6.一种语音对话质量评价系统,其特征在于,包括:语音接收模块:用于接收待评价语音对话;语音解析模块:包括第一交互解析子单元和第二时长解析子单元;所述第一交互解...

【专利技术属性】
技术研发人员:秦思
申请(专利权)人:湖北经济学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1