数据生成方法、语音分割方法及相关装置制造方法及图纸

技术编号：42003323 阅读：10 留言：0更新日期：2024-07-12 12:25

本公开提供了一种数据生成方法、语音分割方法及相关装置，用于提升语音分割的准确性。该方法包括：根据获取到的标注语音数据中包含的标注信息，计算标注语音数据的切换状态信息；从标注语音数据对应的M个说话人中随机选取N个说话人，以及N个说话人各自对应的语音片段集合；根据标注语音数据的切换状态信息，将N个说话人中每个说话人对应的语音片段集合进行拼接处理，得到包含N个说话人的模拟对话语音数据，以及为模拟对话语音数据添加索引信息。该方法在标注语音数据有限的情况下，生成更多符合说话人切换规律的语音数据，进而在使用模拟对话语音数据训练语音分割模型时提升语音分割模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及自然语言处理领域，特别涉及一种数据生成方法、语音分割方法及相关装置。

技术介绍

1、语音分割技术用于解决判断一段语音中某个时间段的说话人身份的问题。在现实应用中，可以将该技术和语音识别共同应用，当音频为单声道音频时，可以通过语音分割判断出说话人身份，然后进行语音识别。

2、在语音分割训练时，往往需要大量人工标注数据，在标注结果中需要标注出说话人身份以及此说话人说话的起始时间，这种标注费时费力，标注成本高昂。

3、在相关技术中，主要使用已知说话人的数据，将不同说话人语音之间直接进行依次堆叠，形成有起始时间的说话人语音分割数据，但该方法存在所形成的语音过于理想、不符合真实语音的发音情况、包括两个说话人的重叠时间、说话人转折的次数、说话的空白时间等等问题。另外，在相关技术中还使用固定比例的说话人重叠时间数据生成方法，但该方法受限于比例的固定，有时难以模拟出真实的对话场景，最终所训练的模型效果也并不好。因此，在语音处理领域，如何准确有效生成的包含多个说句话人的训练数据成为当今研究的热点问题。

技术实现思路

1、本公开提供了一种数据生成方法、语音分割方法及相关装置，用于提升语音分割的准确性。

2、第一方面，本公开提供了一种数据生成方法，包括：

3、根据获取到的标注语音数据中包含的标注信息，计算标注语音数据的切换状态信息；其中，标注语音数据包括多个语音片段，标注语音数据对应的说话人为m个，每个说话人对应标注语音数据中的一个语音片段集合；

4、从标注语音数据对应的m个说话人中随机选取n个说话人，以及n个说话人各自对应的语音片段集合；

5、根据标注语音数据的切换状态信息，将n个说话人中每个说话人对应的语音片段集合进行拼接处理，得到包含n个说话人的模拟对话语音数据，以及为模拟对话语音数据添加索引信息；模拟对话语音数据对应的索引信息用于表征每个说话人对应的语音起止位置。

6、第二方面，本公开提供了一种语音分割方法，包括：

7、提取目标语音数据的声学信号特征数据；

8、将目标语音数据的声学信号特征数据输入语音分割模型进行说话人分割处理；语音分割模型是基于模拟对话语音数据以及模拟对话语音数据的索引信息训练得到的，模拟对话语音数据以及模拟对话语音数据的索引信息是通过第一方面中的数据生成方法生成的；

9、根据语音分割模型的输出结果，对目标语音数据进行分割处理，得到目标语音数据中包含的对应于多个说话人的目标语音片段。

10、第三方面，本公开提供了一种数据生成装置，包括：

11、计算模块，用于根据获取到的标注语音数据中包含的标注信息，计算标注语音数据的切换状态信息；其中，标注语音数据包括多个语音片段，标注语音数据对应的说话人为m个，每个说话人对应标注语音数据中的一个语音片段集合；切换状态信息用于表征不同说话人之间的切换状态；

12、选取模块，用于从标注语音数据对应的m个说话人中随机选取n个说话人，以及n个说话人各自对应的语音片段集合；

13、拼接模块，用于根据标注语音数据的切换状态信息，将n个说话人中每个说话人对应的语音片段集合进行拼接处理，得到包含n个说话人的模拟对话语音数据，以及为模拟对话语音数据添加索引信息；模拟对话语音数据对应的索引信息用于表征每个说话人对应的语音起止位置。

14、第四方面，本公开提供了一种语音分割装置，包括：

15、提取模块，用于提取目标语音数据的声学信号特征数据；

16、处理模块，用于将目标语音数据的声学信号特征数据输入语音分割模型进行说话人分割处理；语音分割模型是基于模拟对话语音数据以及模拟对话语音数据的索引信息训练得到的，模拟对话语音数据以及模拟对话语音数据的索引信息是通过第一方面中的数据生成方法生成的；

17、分割模块，用于根据语音分割模型的输出结果，对目标语音数据进行分割处理，得到目标语音数据中包含的对应于多个说话人的目标语音片段。

18、第五方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；至少一个存储器；以及一个或多个i/o接口，连接在处理器与存储器之间；其中，存储器存储有可被至少一个处理器执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器执行，以使至少一个处理器能够执行上述数据生成方法或者语音分割方法。

19、第六方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，计算机程序在被处理器/处理核执行时实现上述数据生成方法或者语音分割方法。

20、根据本公开所提供的一种数据生成方法，根据获取到的标注语音数据中包含的标注信息，计算标注语音数据的切换状态信息，切换状态信息可以表征标注语音数据中不同说话人之间的切换状态；进一步的，从标注语音数据对应的m个说话人中随机选取n个说话人，以及n个说话人各自对应的语音片段集合；根据标注语音数据的切换状态信息，将n个说话人中每个说话人对应的语音片段集合进行拼接处理，得到包含n个说话人的模拟对话语音数据，以及为模拟对话语音数据添加索引信息。由此可知，通过统计现有真实语音数据的标注确定出真实语音数据中各个说话人的切换状态，然后基于该切换状态将多个说话人的语音数据进行拼接，即可生成符合说话人切换规律或者规则的模拟对话语音数据，这种方法可以在标注语音数据有限的情况下，生成更多符合说话人切换规律的语音数据。如此一来，使用模拟对话语音数据训练语音分割模型时，可以提升语音分割模型的准确性。

21、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述M个说话人以及各自对应的语音片段集合是以键值对的形式存在说话人字典中；所述说话人字典中存储多条键值对数据记录，每条数据记录的键用于表征说话人，且每条数据记录的值用于表征与说话人相对应的语音片段集合。

3.根据权利要求2所述的方法，其特征在于，所述说话人字典通过以下方式构建：

4.根据权利要求1所述的方法，其特征在于，所述计算所述标注语音数据的切换状态信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述与切换操作相关联的切换关联状态包括以下中的至少一个：用于表征说话人切换操作的切换操作状态、用于表征停顿操作的停顿状态、以及用于表征不同说话人的语音内容相互重合的重合状态；

6.根据权利要求5所述的方法，其特征在于，所述根据所述标注语音数据的切换状态信息，将所述N个说话人中每个说话人对应的语音片段集合进行拼接处理，包括：

7.一种语音分割方法，其特征在于，包括：

8.一种数据生成装置，其特征在于，包括：>

9.一种语音分割装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-6中任一项所述的数据生成方法；或者，执行如权利要求7所述的语音分割方法。

...

【技术特征摘要】

1.一种数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述m个说话人以及各自对应的语音片段集合是以键值对的形式存在说话人字典中；所述说话人字典中存储多条键值对数据记录，每条数据记录的键用于表征说话人，且每条数据记录的值用于表征与说话人相对应的语音片段集合。

3.根据权利要求2所述的方法，其特征在于，所述说话人字典通过以下方式构建：

4.根据权利要求1所述的方法，其特征在于，所述计算所述标注语音数据的切换状态信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述与切换操作相关联的切换关联状态包括以下中的至少一个：用于表征说话人切换操作的切换操作状态、用于表征...

【专利技术属性】
技术研发人员：孟庆林，蒋宁，吴海英，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人