基于多模态的音频检测纠错方法和系统技术方案

技术编号：42751512 阅读：22 留言：0更新日期：2024-09-18 13:41

本发明专利技术提供一种基于多模态的音频检测纠错方法和系统，通过结合声学模型、语义模型以及视觉模型等多种模态信息，对语音识别结果进行自动检测和纠错，克服由于环境噪声、口音差异、语速等因素，现有语音识别结果往往存在误差，无法自动纠错的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理、语音识别和机器学习，尤其涉及一种基于多模态的音频检测纠错方法和系统。

技术介绍

1、随着语音识别技术的快速发展，音频数据的自动处理和分析已成为可能。然而，在实际应用中，由于环境噪声、口音差异、语速等因素，语音识别结果往往存在误差。为了提高语音识别的准确性，需要一种能够自动检测并纠正语音识别错误的方法和系统。

2、因此，急需一种针对性的基于多模态的音频检测纠错方法和系统。

技术实现思路

1、本专利技术的目的在于提供一种基于多模态的音频检测纠错方法和系统，通过结合声学模型、语言模型以及视觉模型等多种模态信息，对语音识别结果进行自动检测和纠错。

2、第一方面，本申请提供一种基于多模态的音频检测纠错方法，所述方法包括：

3、接收音频数据和视频数据，并对其进行预处理，包括降噪或分频步骤；

4、采用声学模型对预处理后的音频数据进行第一处理，获得多个第一候选识别结果以及对应的声学得分；

5、所述第一处理包括：按时刻连续采样预处理后的音频数据，当前时刻的采样值减去上一时刻采样值与预设系数的乘积，得到当前时刻的补偿值；

6、提取所述补偿值的特征值；

7、将连续采样对应的所述特征值输入所述声学模型，得到多个第一候选的识别结果和对应的标识，以及根据该识别结果的概率大小得到对应的声学得分；

8、采用语义模型对预处理后的音频数据进行第二处理，获得每个第一候选识别结果对应的语义得分；