System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音识别技术,特别涉及一种基于大模型的实时英文语音识别方法及系统。
技术介绍
1、目前,人工智能技术的运用越来越广泛,将人工智能技术运用于语音识别能显著提高准确率,在实时语音识别领域,为了满足响应速度要求,一般采用较小的模型,不断的识别前端传输过来的1秒以下的语音片段,再把所有的识别结果拼接到一起,做为最终结果。但上述方法普遍存在着准确率低,考虑的上下文较少,需要其它的外接模型预测标点符号、做文本规范化等问题。
2、为了提高准确性,可以采用大模型进行语音识别,大模型由于其较深的网络结构,可以在训练过程中学到比传统模型更多的知识,预测准确率也会相应提高;但与此相对的,大模型的前向推理过程较慢,不能像流式语音识别模型那样,直接把所有音频一股脑的输入模型、获得输出,也基本不能接入额外的模型完成其它必需功能,例如时间戳预测、文本规范化,否则会把本就较慢的推理速度拖的更慢了,以至于无法满足实时性要求。
3、因此,如何在提高准确率的前提下,保证语音识别的实时性要求是现有技术亟需解决的问题。
技术实现思路
1、针对现有英文语音识别模型识别准确率低、功能单一等缺点,本专利技术一种把大模型应用于实时英文语音识别的方法,在该方法中采用seq2seq架构的大模型作为识别模型,seq2seq架构包括decoder和encoder,利用识别模型进行语音识别的过程具体包括以下步骤:
2、100、前端以固定间隔t向语音识别模型发送音频,每段音频长度为t;
...【技术保护点】
1.一种基于大模型的实时英文语音识别方法,其特征在于,采用seq2seq架构的大模型作为识别模型,seq2seq架构包括encoder和decoder,利用识别模型进行语音识别的过程具体包括以下步骤:
2.根据权利要求1所述的一种实时英文语音识别方法,其特征在于,语音识别模型的获取包括:采用openai的whisper-large模型作为预训练模型,并利用自有的语音数据作为训练数据对预训练模型进行微调。
3.根据权利要求2所述的一种基于大模型的实时英文语音识别方法,其特征在于,采用框架ctranslation2转换微调后语音识别模型的格式。
4.根据权利要求1所述的一种基于大模型的实时英文语音识别方法,其特征在于,从decoder预测输出的最后一个单词向前依次计算每个单词的时间戳,具体包括以下步骤:
5.根据权利要求1所述的一种基于大模型的实时英文语音识别方法,其特征在于,若音频中出现1s以上静音,则以静音结束位置为起始位置,舍弃起始位置之前的音频,保留起始位置到音频结尾的部分用于下一次音频拼接;同时只保留舍弃的音频对应的识别结果,
6.一种基于大模型的实时英文语音识别系统,其特征在于,包括语音采集模块、语音拼接模块、语音识别模块、结束符检测模块、时间戳计算模块、检测结果推送模块、历史语音构建模块,其中:
7.根据权利要求6所述的一种基于大模型的实时英文语音识别系统,其特征在于,语音识别模块采用openai的whisper-large模型作为预训练模型,并利用原始的语音数据作为训练数据对预训练模型进行微调。
8.根据权利要求6所述的一种基于大模型的实时英文语音识别系统,其特征在于,时间戳计算模块为每个单词生成时间戳时,从decoder预测输出的最后一个单词向前依次计算每个单词的时间戳,具体包括以下步骤:
9.一种计算机设备,其特征在于,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1所述的一种基于大模型的实时英文语音识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1所述的一种基于大模型的实时英文语音识别方法。
...【技术特征摘要】
1.一种基于大模型的实时英文语音识别方法,其特征在于,采用seq2seq架构的大模型作为识别模型,seq2seq架构包括encoder和decoder,利用识别模型进行语音识别的过程具体包括以下步骤:
2.根据权利要求1所述的一种实时英文语音识别方法,其特征在于,语音识别模型的获取包括:采用openai的whisper-large模型作为预训练模型,并利用自有的语音数据作为训练数据对预训练模型进行微调。
3.根据权利要求2所述的一种基于大模型的实时英文语音识别方法,其特征在于,采用框架ctranslation2转换微调后语音识别模型的格式。
4.根据权利要求1所述的一种基于大模型的实时英文语音识别方法,其特征在于,从decoder预测输出的最后一个单词向前依次计算每个单词的时间戳,具体包括以下步骤:
5.根据权利要求1所述的一种基于大模型的实时英文语音识别方法,其特征在于,若音频中出现1s以上静音,则以静音结束位置为起始位置,舍弃起始位置之前的音频,保留起始位置到音频结尾的部分用于下一次音频拼接;同时只保留舍弃的音频对应的识别结果,并在识别结果的单词序列末尾增加一个句号,接着把识别结果标记为可...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。