一种纠错多模态模型构建方法、系统、设备及介质技术方案

技术编号：42358828 阅读：7 留言：0更新日期：2024-08-16 14:43

本申请公开了一种纠错多模态模型构建方法、系统、设备及介质，获取音频信息；对所述音频信息进行人声分离处理和转写处理，得到处理结果；将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型，基于所述微调样本对所述预备模型进行调整，得到纠错多模态模型，述预备模型包括线性层和处于冻结状态的大型语言模型，所述投影层将用于人声分离的语音编码器与处于冻结状态的语音大模型对齐。基于多模态大模型同时利用两个模态信息，利用其强大的zero‑shot能力，适配更复杂的会议场景，对会议转录系统的两个模块做优化，提高会议转录的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别是涉及一种纠错多模态模型构建方法、系统、设备及介质。

技术介绍

1、纠错多模态模型构建系统的主要任务是将会议中的语音内容转化为文字形式，方便参会者查阅和记录。当会议人数逐渐增多，环境变得愈发嘈杂时，已有的会议质检系统会遭受到前所未有的挑战。例如在一场大型的线上会议中，数十甚至上百位参会者同时发言，他们的语音交织在一起，背景中还夹杂着键盘敲击声、纸张翻动声以及偶尔传来的门铃声等。系统需要处理的信息量急剧增加，同时语音信号的清晰度也会大幅下降。这导致人声分离和转写两个模块在纠错时面临着巨大的困难。

2、人声分离模块的主要任务是将不同人的语音信号分离开来，确保每个人的发言都能被准确识别。然而，在嘈杂的环境中，不同人的语音信号往往会发生重叠和干扰，使得分离变得异常困难。此外，由于每个人的语音特征都有所不同，分离模块还需要具备强大的识别能力，以应对各种复杂的语音情况。转写模块则负责将分离后的语音信号转化为文字。然而，由于语音信号的质量问题以及分离模块可能存在的误差，转写模块在转写过程中也容易出现错误。这些错误可能包括识别错误、漏字、多字等，严重影响了转录结果的准确性。

3、由于人声分离和转写两个模块涉及两种不同的模态(语音和文本)，它们的纠错方案通常是割裂的。这意味着在优化这两个模块时，往往只能针对其中一个模块进行改进，而无法同时考虑到它们之间的相互影响。这导致了纠错多模态模型构建的整体性能的提升受限，进而影响了纠错多模态模型构建的准确性。

技术实现思路p>

1、基于上述问题，本申请提供了一种纠错多模态模型构建方法、系统、设备及介质，用以提高会议转录的准确性。

2、为解决上述问题，本申请实施例提供的技术方案如下：

3、本申请第一方面提供了一种纠错多模态模型构建方法，包括：

4、获取音频信息；

5、对所述音频信息进行人声分离处理和转写处理，得到处理结果；

6、将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型，基于所述微调样本对所述预备模型进行调整，得到纠错多模态模型，所述预备模型包括线性层和处于冻结状态的大型语言模型，所述投影层将用于人声分离的语音编码器与处于冻结状态的语音大模型对齐。

7、在一种可能的实现方式中，所述对所述音频信息进行人声分离处理和转写处理，得到处理结果，包括：

8、将所述音频信息输入静音检测模块，并剔除所述音频信息中的静音部分；

9、将剔除后得到的音频信息分别输入基于说话者的自动语音识别模块和人声分离模块，得到处理结果，所述自动语音识别模块用于利用声学模型和语言模型，将所述音频信息中非静音部分的音频帧转换为文本信息，所述人声分离模块用于根据说话者特征将音频帧分配给不同的说话者。

10、在一种可能的实现方式中，所述处理结果包括自动语音识别模块处理得到的第一结果，所述第一结果包括每一帧音频被分析并转换得到的文本单元，所述文本单元为音素或单词的一部分。

11、在一种可能的实现方式中，所述处理结果包括自动语音识别模块处理得到的第二结果，所述第二结果是基于说话者的音色特征和语速特征将音频帧进行分配得到的。

12、在一种可能的实现方式中，所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型之前，还包括：

13、获取所述处理结果的特征标签；

14、所述将所述处理结果与相对应的真实结果组合得到微调样本，包括：

15、将所述特征标签，所述处理结果，以及与所述处理结果相对应的真实结果组合得到微调样本。

16、在一种可能的实现方式中，所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型之前，还包括：

17、获取所述处理结果的特征标签；

18、所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型，包括：

19、将所述特征标签和所述处理结果组合得到微调样本，输入预备模型中的投影层；

20、将经过投影层梳理的微调样本中加入所述特征标签，输入预备模型中的处于冻结状态的语音大模型。

21、本申请第二方面提供了一种纠错多模态模型构建系统，包括：

22、第一获取单元，用于获取音频信息；

23、处理单元，用于对所述音频信息进行人声分离处理和转写处理，得到处理结果；

24、输入单元，用于将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型，基于所述微调样本对所述预备模型进行调整，得到纠错多模态模型，所述预备模型包括线性层和处于冻结状态的大型语言模型，所述投影层将用于人声分离的语音编码器与处于冻结状态的语音大模型对齐。

25、在一种可能的实现方式中，所述系统还包括：

26、第二获取单元，用于获取所述处理结果的特征标签；

27、所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型，包括：

28、将所述特征标签和所述处理结果组合得到微调样本，输入预备模型中的投影层；

29、将经过投影层梳理的微调样本中加入所述特征标签，输入预备模型中的处于冻结状态的语音大模型。

30、本申请第三方面提供了一种电子设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现前述第一方面所述的纠错多模态模型构建方法。

31、本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如前述第一方面所述的纠错多模态模型构建方法。

32、相较于现有技术，本申请具有以下有益效果：

33、结合人声分离的语音编码器与语言大模型，实现从音频到文本的多模态处理。这种融合不仅能够提升对语音信号的理解深度，还能利用语言模型丰富的上下文知识进行更精准的转录和纠错。通过投影层将人声分离的语音编码器与冻结的llm对齐，确保音频特征能够与llm的文本处理能力有效结合。这种对齐方式不仅提高了模型处理音频数据的效率，还使得模型能够更准确地识别语音内容。相对于传统方案中纠错方法往往只针对单一模块进行，本申请基于多模态大模型同时利用两个模态信息，利用其强大的在未接受过特定任务或类别直接训练的情况下，能够对新任务或未见过的类别进行预测或分类的能力，适配更复杂的会议场景，提高会议转录的准确性。

本文档来自技高网...

【技术保护点】

1.一种纠错多模态模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述音频信息进行人声分离处理和转写处理，得到处理结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述处理结果包括自动语音识别模块处理得到的第一结果，所述第一结果包括每一帧音频被分析并转换得到的文本单元，所述文本单元为音素或单词的一部分。

4.根据权利要求2所述的方法，其特征在于，所述处理结果包括自动语音识别模块处理得到的第二结果，所述第二结果是基于说话者的音色特征和语速特征将音频帧进行分配得到的。

5.根据权利要求1所述的方法，其特征在于，所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型之前，还包括：

7.一种纠错多模态模型构建系统，其特征在于，所述系统包括：

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

9.一种电子设备，其

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-6任一项所述的纠错多模态模型构建方法。

...

【技术特征摘要】

1.一种纠错多模态模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述音频信息进行人声分离处理和转写处理，得到处理结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述处理结果与相对应的真实结果组合得到微调样本，输入预备模型之前，还包括：<...

【专利技术属性】
技术研发人员：冯晨，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人