语音情感识别数据集构建方法、装置、设备及存储介质制造方法及图纸

技术编号：39957413 阅读：7 留言：0更新日期：2024-01-08 23:46

本申请公开了一种语音情感识别数据集构建方法、装置、设备及存储介质，通过采集实际的原始音频文件，基于PA情感环状模型、PAD情感量表以及SAM自我评估模型构建标注工具，使得标注用户通过标注工具生成对原始音频文件的标注分值，且由于标注工具中对愉悦维以及激活维的不同分值点对应显示不同描述词，一定程序上统一了标注标准，避免标注用户的主观性，从而构建含有标注维度信息的语音情感识别数据集，解决了维度情感的标注相比于离散的情感标签，其标注更困难，且没有一个统一的标准，容易受到标注人员的主观影响，导致的标注维度信息的数据集较少的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别，尤其涉及一种语音情感识别数据集构建方法、装置、设备及存储介质。

技术介绍

1、在构建语音情感识别数据集时，大部分方案是选取特定的语句，然后按照年龄、性别等因素，寻找专业的演员用不同的情感对同一个语句进行演绎，在特定的录音设备下进行音频录制；或者从一些电视节目、脱口秀、综艺、演讲中进行剪辑。通过这些场景采集的音频数据，背景噪声很小，音频质量较高。采集到音频之后通过人员对音频的情感标签进行标注，大部分仅标注较容易的离散情感标签，例如：快乐、悲伤、恐惧、愤怒、惊讶和厌恶等，从而基本完成语音情感识别数据集的构建。

2、现在普遍的构造语音情感识别数据集的流程，其数据集构建所采用的音频与实际环境采集的音频不符，实际环境中的音频中可能存在采集设备不专业，背景噪声复杂多样，年龄从小孩到老人都有，不同地区还有不标准的普通话或方言等问题；其次，大多数数据集没有维度情感的标注，常见的维度情感模型是pad三维情感模型，p是愉悦维，a是激活维，d是支配维，维度情感的标注相比于离散的情感标签，其标注更困难，且没有一个统一的标准，容易受到标注人员的主观影响，导致了标注维度信息的数据集较少的技术问题。

技术实现思路

1、本申请提供了一种语音情感识别数据集构建方法、装置、设备及存储介质，解决了维度情感的标注相比于离散的情感标签，其标注更困难，且没有一个统一的标准，容易受到标注人员的主观影响，导致的标注维度信息的数据集较少的技术问题。

2、有鉴于此，本申请第一方面提供了一种

3、s1、获取原始音频文件，所述原始音频文件中包含预设身份属性用户的音频数据；

4、s2、基于pa情感环状模型、pad情感量表以及sam自我评估模型构建标注工具，其中p为愉悦维，a为激活维，所述标注工具中对所述愉悦维以及所述激活维的不同分值点对应显示不同描述词；

5、s3、通过所述标注工具获取至少一个标注用户对所述原始音频文件的标注结果；

6、s4、根据所述标注结果，构建包含所述预设身份属性用户的语音情感识别数据集。

7、可选地，所述步骤s1之后还包括：

8、若所述原始音频文件中包含两个或两个以上预设身份属性用户的音频数据，则基于声纹识别技术以及语义识别技术，分别提取并拼接所述原始音频文件中两个或两个以上预设身份属性用户的音频数据。

9、可选地，所述步骤s3之后还包括：

10、若两个或两个标注用户对同一个所述原始音频文件的标注分值差大于第一预设阈值，则对所述原始音频文件的标注结果标记为无效结果。

11、可选地，所述步骤s3之后还包括：

12、若两个或两个标注用户对同一个所述原始音频文件的标注分值差大于第二预设阈值但小于第一预设阈值，则对所述原始音频文件的标注结果标记为存疑结果。

13、本申请第二方面提供一种语音情感识别数据集构建装置，所述装置包括：

14、获取单元，用于获取原始音频文件，所述原始音频文件中包含预设身份属性用户的音频数据；

15、工具构建单元，用于基于pa情感环状模型、pad情感量表以及sam自我评估模型构建标注工具，其中p为愉悦维，a为激活维，所述标注工具中对所述愉悦维以及所述激活维的不同分值点对应显示不同描述词；

16、标注单元，用于通过所述标注工具获取至少一个标注用户对所述原始音频文件的标注结果；

17、数据集构建单元，用于根据所述标注结果，构建包含所述预设身份属性用户的语音情感识别数据集。

18、可选地，还包括：

19、提取单元，用于若所述原始音频文件中包含两个或两个以上预设身份属性用户的音频数据，则基于声纹识别技术以及语义识别技术，分别提取并拼接所述原始音频文件中两个或两个以上预设身份属性用户的音频数据。

20、可选地，还包括：

21、第一标记单元，用于若两个或两个标注用户对同一个所述原始音频文件的标注分值差大于第一预设阈值，则对所述原始音频文件的标注结果标记为无效结果。

22、可选地，还包括：

23、第二标记单元，用于若两个或两个标注用户对同一个所述原始音频文件的标注分值差大于第二预设阈值但小于第一预设阈值，则对所述原始音频文件的标注结果标记为存疑结果。

24、本申请第三方面提供一种语音情感识别数据集构建设备，所述设备包括处理器以及存储器：

25、所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

26、所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的语音情感识别数据集构建的方法的步骤。

27、本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的语音情感识别数据集构建方法的步骤。

28、从以上技术方案可以看出，本申请实施例具有以下优点：

29、本申请中，提供了一种语音情感识别数据集构建方法、装置、设备及存储介质，通过采集实际的原始音频文件，基于pa情感环状模型、pad情感量表以及sam自我评估模型构建标注工具，使得标注用户通过标注工具生成对原始音频文件的标注分值，且由于标注工具中对愉悦维以及激活维的不同分值点对应显示不同描述词，一定程序上统一了标注标准，避免标注用户的主观性，从而构建含有标注维度信息的语音情感识别数据集，解决了维度情感的标注相比于离散的情感标签，其标注更困难，且没有一个统一的标准，容易受到标注人员的主观影响，导致的标注维度信息的数据集较少的技术问题。

本文档来自技高网...

【技术保护点】

1.一种语音情感识别数据集构建方法，其特征在于，包括：

2.根据权利要求1所述的语音情感识别数据集构建方法，其特征在于，所述步骤S1之后还包括：

3.根据权利要求1所述的语音情感识别数据集构建方法，其特征在于，所述步骤S3之后还包括：

4.根据权利要求1所述的语音情感识别数据集构建方法，其特征在于，所述步骤S3之后还包括：

5.一种语音情感识别数据集构建装置，其特征在于，包括：

6.根据权利要求5所述的语音情感识别数据集构建装置，其特征在于，还包括：

7.根据权利要求5所述的语音情感识别数据集构建装置，其特征在于，还包括：

8.根据权利要求5所述的语音情感识别数据集构建装置，其特征在于，还包括：

9.一种语音情感识别数据集构建设备，其特征在于，所述设备包括处理器以及存储器：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的语音情感识别数据集构建方法。

【技术特征摘要】

1.一种语音情感识别数据集构建方法，其特征在于，包括：

2.根据权利要求1所述的语音情感识别数据集构建方法，其特征在于，所述步骤s1之后还包括：

3.根据权利要求1所述的语音情感识别数据集构建方法，其特征在于，所述步骤s3之后还包括：

4.根据权利要求1所述的语音情感识别数据集构建方法，其特征在于，所述步骤s3之后还包括：

5.一种语音情感识别数据集构建装置，其特征在于，包括：

6.根据权利要求5所述的语音情感...

【专利技术属性】
技术研发人员：何坤成，王以松，李建州，张辉，赵杭，贺贞举，
申请(专利权)人：贵州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人