System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大模型,具体而言,本申请涉及一种语音文本对齐模型训练方法、装置、电子设备及存储介质。
技术介绍
1、近年来多模态人机对话受到广泛的社会关注,尤其是语音文本的多模态对话,通过语音文本对齐模型可以实现特定的语音文本多模态下游任务设计,如语音到文本翻译任务和口语理解任务。
2、然而,传统的词级别对齐技术通常将文本转换为音素序列,并基于这些音素进行对齐。这种方法在很大程度上忽视了文本中的语义信息,导致无法在语音文本多模态对话的任务中取得理想的效果。现有的词级别对齐模型如掩码建模和跨模态对比学习多是为特定的下游任务设计,难以在更广泛的语音文本任务中保持同样的性能。例如,在语音到文本翻译或口语理解等特定任务中,现有技术可能表现出色,但其在其他语音文本任务中却无法保持同等水平的表现,这限制了模型的通用性和适用性。且当前的词级别对齐模型在预训练过程中,严重依赖于词级别的标注数据,其所需的词级别对齐标注成本高昂且耗时,获取足够的词级别标注数据极为困难,无法充分利用大量可用的未标注数据,限制了其在更广泛场景下的应用。
3、由上可知,如何提高语音文本对齐模型训练方法的适用性的问题仍有待解决。
技术实现思路
1、本申请各提供了一种语音文本对齐模型训练方法、装置、电子设备及存储介质,可以解决相关技术中存在的语音文本对齐模型训练方法的适用性不高的问题。所述技术方案如下:
2、根据本申请的一个方面,一种语音文本对齐模型训练方法,其特征在于,包括:
3、获
4、获取语音数据,并基于所述时间预测结果对所述语音数据进行文本重建,获得重建文本数据;
5、基于动态规划算法对所述重建文本数据和所述语音数据进行最优对齐路径预测,获得最优对齐路径;
6、基于所述最优对齐路径对所述预训练模型进行参数调整,获得语音文本对齐模型。
7、根据本申请的一个方面,一种语音文本对齐模型训练装置,其特征在于,包括:
8、信息预测模块,用于获取预训练模型和文本数据,并基于所述预训练模型针对文本数据中的各单词进行时间信息预测,获得对应各所述单词的时间预测结果;
9、重建模块,用于获取语音数据,并基于所述时间预测结果对所述语音数据进行文本重建,获得重建文本数据;
10、路径预测模块,用于基于动态规划算法对所述重建文本数据和所述语音数据进行最优对齐路径预测,获得最优对齐路径;
11、参数调整模块,用于基于所述最优对齐路径对所述预训练模型进行参数调整,获得语音文本对齐模型。
12、在一示例性实施例中,所述预训练模型包括文本编码器和全连接层;
13、所述信息预测模块,包括:
14、文本特征向量单元,用于将文本数据输入所述文本编码器,获得对应文本数据中各单词的文本特征向量;
15、时长预测单元,用于将所述文本特征向量输入所述全连接层,以对文本数据中各单词进行时长预测,获得各单词相对于文本数据整体的长度占比;
16、时间预测结果单元,用于基于所述各单词对应的长度占比确定各所述单词的开始时间以及结束时间,生成对应各所述单词的时间预测结果。
17、在一示例性实施例中,所述文本数据包括文本嵌入和绝对位置嵌入;
18、所述文本特征向量单元,包括:
19、文本段落嵌入子单元,用于对文本数据进行序列划分处理,获得文本段落嵌入;
20、文本特征向量子单元,用于对文本嵌入、绝对位置嵌入和文本段落嵌入进行求和处理并输入所述文本编码器,获得对应各单词的文本特征向量。
21、在一示例性实施例中,所述预训练模型包括语音编码器和全连接层;
22、所述重建模块,包括:
23、语音特征向量单元,用于将所述语音数据输入所述语音编码器,获得对应语音数据中各语音片段的语音特征向量;
24、单词预测单元,用于基于所述全连接层对各所述语音特征向量进行单词预测,获得对应各语音特征向量的单词,生成单词预测结果;
25、重建文本数据单元,用于基于所述时间预测结果对所述单词预测结果进行段落划分,获得重建文本数据。
26、在一示例性实施例中,所述语音数据包括语音嵌入;
27、所述语音特征向量单元,包括:
28、语音段落嵌入子单元,用于对语音数据进行序列划分处理,获得语音段落嵌入;
29、语音特征向量子单元,用于将语音段落嵌入和语音嵌入进行求和处理并输入语音编码器中的自注意力层,获得对应语音数据中各语音片段的语音特征向量。
30、在一示例性实施例中,所述路径预测模块,包括:
31、概率分布单元,用于对所述重建文本数据进行归一化处理,获得各所述语音特征向量对应各单词的概率分布;
32、总概率单元,用于基于各所述语音特征向量的时序关系和所述概率分布,以动态规划算法计算语音数据对于各对齐路径的总概率,确定总概率最高的的对齐路径为最优对齐路径。
33、在一示例性实施例中,所述参数调整模块,包括:
34、路径回溯单元,用于对所述最优对齐路径进行路径回溯,以获得重建文本数据中各单词对应的长度占比;
35、一致性损失单元,用于基于所述重建文本数据中各单词相对于重建文本数据整体的长度占比与所述文本数据中各单词相对于文本数据整体的长度占比进行散度计算,获得一致性损失;
36、参数调整单元,用于基于所述一致性损失对所述预训练模型的模型参数进行调整,重复训练过程,直至所述预训练模型符合预设的预训练目标,获得语音文本对齐模型。
37、根据本申请的一个方面,一种电子设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器上存储有计算机可读指令;所述计算机可读指令被一个或多个所述处理器执行,使得电子设备实现如上所述的语音文本对齐模型训练方法。
38、根据本申请的一个方面,一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的语音文本对齐模型训练方法。
39、根据本申请的一个方面,一种计算机程序产品,计算机程序产品包括计算机可读指令,计算机可读指令存储在存储介质中,电子设备的一个或多个处理器从存储介质读取计算机可读指令,加载并执行该计算机可读指令,使得电子设备实现如上所述的语音文本对齐模型训练方法。
40、本申请提供的技术方案带来的有益效果是:
41、在上述技术方案中,通过对文本数据中各单词的时间信息进行预测,并对语音数据进行文本重建,通过动态规划算法寻找重建文本数据和所述语音数据的最优对齐路径,最终获得语音文本对齐模型。通过动态规划算法逐步优化语音文本对齐模型的时间对齐预测,不仅进一步提升了模型的本文档来自技高网...
【技术保护点】
1.一种语音文本对齐模型训练方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述预训练模型包括文本编码器和全连接层;
3.如权利要求2所述的方法,其特征在于,所述文本数据包括文本嵌入和绝对位置嵌入;
4.如权利要求1所述的方法,其特征在于,所述预训练模型包括语音编码器和全连接层;
5.如权利要求4所述的方法,其特征在于,所述语音数据包括语音嵌入;
6.如权利要求1所述的方法,其特征在于,所述基于动态规划算法对所述重建文本数据和所述语音数据进行最优对齐路径预测,获得最优对齐路径,包括:
7.如权利要求1所述的方法,其特征在于,所述基于所述最优对齐路径对所述预训练模型进行参数调整,获得语音文本对齐模型,包括:
8.一种语音文本对齐模型训练装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:至少一个处理器以及至少一个存储器,其中,
10.一种存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行,以实现如权利要求1至7
...【技术特征摘要】
1.一种语音文本对齐模型训练方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述预训练模型包括文本编码器和全连接层;
3.如权利要求2所述的方法,其特征在于,所述文本数据包括文本嵌入和绝对位置嵌入;
4.如权利要求1所述的方法,其特征在于,所述预训练模型包括语音编码器和全连接层;
5.如权利要求4所述的方法,其特征在于,所述语音数据包括语音嵌入;
6.如权利要求1所述的方法,其特征在于,所述基于动态规划算法对所述重建文本数据和所述语音数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。