System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及音频处理、语音识别和机器学习,尤其涉及一种基于多模态的音频检测纠错方法和系统。
技术介绍
1、随着语音识别技术的快速发展,音频数据的自动处理和分析已成为可能。然而,在实际应用中,由于环境噪声、口音差异、语速等因素,语音识别结果往往存在误差。为了提高语音识别的准确性,需要一种能够自动检测并纠正语音识别错误的方法和系统。
2、因此,急需一种针对性的基于多模态的音频检测纠错方法和系统。
技术实现思路
1、本专利技术的目的在于提供一种基于多模态的音频检测纠错方法和系统,通过结合声学模型、语言模型以及视觉模型等多种模态信息,对语音识别结果进行自动检测和纠错。
2、第一方面,本申请提供一种基于多模态的音频检测纠错方法,所述方法包括:
3、接收音频数据和视频数据,并对其进行预处理,包括降噪或分频步骤;
4、采用声学模型对预处理后的音频数据进行第一处理,获得多个第一候选识别结果以及对应的声学得分;
5、所述第一处理包括:按时刻连续采样预处理后的音频数据,当前时刻的采样值减去上一时刻采样值与预设系数的乘积,得到当前时刻的补偿值;
6、提取所述补偿值的特征值;
7、将连续采样对应的所述特征值输入所述声学模型,得到多个第一候选的识别结果和对应的标识,以及根据该识别结果的概率大小得到对应的声学得分;
8、采用语义模型对预处理后的音频数据进行第二处理,获得每个第一候选识别结果对应的语义得分;
10、结合声学得分和语义得分,为每个第一候选识别结果计算权重得分;
11、将权重得分最高的第一候选识别结果作为目标识别结果;
12、结合视觉模型对目标识别结果进行验证和纠错;
13、所述验证和纠错包括:根据音频数据的帧数与视频数据中图像的帧数的比值,对视频数据进行帧插入操作;
14、帧插入后的视频数据与音频数据同步、归一化,得到处理后的视频数据;
15、将该处理后的视频数据输入视觉模型,识别视频图像中嘴部的动作,得到视频模态的第二识别结果;
16、如果所述目标识别结果与第二识别结果不匹配,则降低该目标识别结果的权重得分,重新进行权重得分排序,选择权重得分最高的第一候选识别结果作为新的目标识别结果;
17、输出纠错后的语音识别结果。
18、第二方面,本申请提供一种基于多模态的音频检测纠错系统,所述系统包括:
19、预处理单元,用于接收音频数据和视频数据,并对其进行预处理,包括降噪或分频步骤;
20、声学识别单元,用于采用声学模型对预处理后的音频数据进行第一处理,获得多个第一候选识别结果以及对应的声学得分;
21、所述声学识别单元包括:补偿计算子单元,用于按时刻连续采样预处理后的音频数据,当前时刻的采样值减去上一时刻采样值与预设系数的乘积,得到当前时刻的补偿值;
22、特征提取子单元,用于提取所述补偿值的特征值;
23、识别子单元,用于将连续采样对应的所述特征值输入所述声学模型,得到多个第一候选的识别结果和对应的标识,以及根据该识别结果的概率大小得到对应的声学得分;
24、语义识别单元,用于采用语义模型对预处理后的音频数据进行第二处理,获得每个第一候选识别结果对应的语义得分;
25、所述语义识别单元包括:将连续采样的预处理后的音频数据,以及多个第一候选识别结果的标识,输入所述语义模型,得到标识对应的语义识别结果,以及根据该识别结果的概率大小得到对应的语义得分;
26、权重计算单元,用于结合声学得分和语义得分,为每个第一候选识别结果计算权重得分;
27、筛选单元,用于将权重得分最高的第一候选识别结果作为目标识别结果;
28、验证纠错单元,用于结合视觉模型对目标识别结果进行验证和纠错;
29、所述验证纠错单元包括:插入子单元,用于根据音频数据的帧数与视频数据中图像的帧数的比值,对视频数据进行帧插入操作;
30、处理子单元,用于将帧插入后的视频数据与音频数据同步、归一化,得到处理后的视频数据;
31、视觉识别子单元,用于将该处理后的视频数据输入视觉模型,识别视频图像中嘴部的动作,得到视频模态的第二识别结果;
32、重新筛选子单元,用于如果所述目标识别结果与第二识别结果不匹配,则降低该目标识别结果的权重得分,重新进行权重得分排序,选择权重得分最高的第一候选识别结果作为新的目标识别结果;
33、输出单元,用于输出纠错后的语音识别结果。
34、第三方面,本申请提供一种基于多模态的音频检测纠错系统,所述系统包括处理器以及存储器:
35、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
36、所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
37、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于被处理器执行实现第一方面四种可能中任一项所述的方法。
38、有益效果
39、本专利技术提供一种基于多模态的音频检测纠错方法和系统,通过结合声学模型、语义模型以及视觉模型等多种模态信息,对语音识别结果进行自动检测和纠错,克服由于环境噪声、口音差异、语速等因素,现有语音识别结果往往存在误差,无法自动纠错的问题。
40、本专利技术的基于多模态的音频检测纠错方法和系统具有以下优点和效果:
41、提高识别准确率,通过结合声学模型、语义模型和视觉模型等多种模态信息,系统能够更全面、准确地理解音频内容。
42、提升用户体验,通过自动检测和纠正语音识别错误,系统能够为用户提供更加准确、流畅的交互体验。可以广泛应用于智能语音助手、语音识别输入法,或者,其他需要语音识别的应用场景中。
本文档来自技高网...【技术保护点】
1.一种基于多模态的音频检测纠错方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于:所述结合声学得分和语义得分,为每个第一候选识别结果计算权重得分,包括:根据该声学得分的高低,判断其是否大于预设的阈值,如果是则提高声学得分在计算权重得分中的比例。
3.根据权利要求1所述的方法,其特征在于:所述根据音频数据的帧数与视频数据中图像的帧数的比值,对视频数据进行帧插入操作,包括:为了将音频与视频图像同步,在视频图像序列中插入比值倍数的空帧、或复制比值倍数的上一帧图像。
4.根据权利要求2或3任一项所述的方法,其特征在于:在将该处理后的视频数据输入视觉模型之前,还包括:聚焦于视频中图像的嘴部区域,仅将嘴部区域的图像输入视觉模型。
5.一种基于多模态的音频检测纠错系统,其特征在于,所述系统包括:
6.一种基于多模态的音频检测纠错系统,其特征在于,所述系统包括处理器以及存储器:
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于被处理器执行实现权利要求1
...【技术特征摘要】
1.一种基于多模态的音频检测纠错方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于:所述结合声学得分和语义得分,为每个第一候选识别结果计算权重得分,包括:根据该声学得分的高低,判断其是否大于预设的阈值,如果是则提高声学得分在计算权重得分中的比例。
3.根据权利要求1所述的方法,其特征在于:所述根据音频数据的帧数与视频数据中图像的帧数的比值,对视频数据进行帧插入操作,包括:为了将音频与视频图像同步,在视频图像序列中插入比值倍数的空帧、或复制比值倍数的上一帧图...
【专利技术属性】
技术研发人员:肖洪涛,孙涛,孙中民,孙宇超,陈涛,齐帅,李勉,户志伟,
申请(专利权)人:天津市国瑞数码安全系统股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。