语音监督数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33200713 阅读：21 留言：0更新日期：2022-04-24 00:37

本公开关于一种语音监督数据获取方法、装置、电子设备及存储介质，该方法包括：确定候选视频中的多个视频帧图像；对多个视频帧图像进行文本识别，得到每个视频帧图像对应的第一文本串；对多个视频帧图像对应的第一文本串进行处理，得到多个视频帧图像对应的候选文本，并确定与候选文本对应的起始时间点和结束时间点；从候选视频的音频文件中提取起始时间点和结束时间点之间的音频数据，得到候选文本对应的音频数据；对候选文本对应的音频数据进行语音识别，得到候选文本对应的识别文本；根据候选文本和识别文本，确定音频数据对应的目标文本，并将目标文本确定为音频数据对应的标注数据。本公开可以减少人力成本，提高标注效率。提高标注效率。提高标注效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音监督数据获取方法、装置、电子设备及存储介质

[0001]本公开涉及语音识别
，尤其涉及一种语音监督数据获取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能的发展，语音识别已经广泛应用于各行各业。在训练语音识别系统时，需要大量的监督数据，工业界常用几万到几十万小时的海量监督标注数据来训练模型，监督数据常用的获取方法来自于人工对语音进行标注，但是面对几十万小时海量的数据，如果需要人工标注，将会耗费较高的人力成本，而且标注效率较低。

技术实现思路

[0003]本公开提供一种语音监督数据获取方法、装置、电子设备及存储介质，以至少解决相关技术中人力成本高、标注效率低的问题。本公开的技术方案如下：
[0004]根据本公开实施例的第一方面，提供一种语音监督数据获取方法，包括：
[0005]确定候选视频中的多个视频帧图像，对所述多个视频帧图像进行文本识别，得到每个所述视频帧图像对应的第一文本串；
[0006]对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点；
[0007]从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据，得到所述候选文本对应的音频数据；
[0008]对所述候选文本对应的音频数据进行语音识别，得到所述候选文本对应的识别文本；
[0009]根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，并将所述目标文本确定为...

【技术保护点】

【技术特征摘要】
1.一种语音监督数据获取方法，其特征在于，包括：确定候选视频中的多个视频帧图像，对所述多个视频帧图像进行文本识别，得到每个所述视频帧图像对应的第一文本串；对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点；从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据，得到所述候选文本对应的音频数据；对所述候选文本对应的音频数据进行语音识别，得到所述候选文本对应的识别文本；根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，并将所述目标文本确定为所述音频数据对应的标注数据。2.根据权利要求1所述的方法，其特征在于，所述对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点，包括：从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像；根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域；根据所述文本区域，从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串，得到所述多个视频帧图像对应的初始文本；对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像；根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。3.根据权利要求2所述的方法，其特征在于，根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域，包括：分别对所述第一预设数量的视频帧图像进行文本识别，得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域；确定每个视频帧图像对应的第二文本串的去重汉字集合；比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。4.根据权利要求3所述的方法，其特征在于，比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域，包括：在所述第一预设数量的视频帧图像中，确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值；删除所述差值小于第一差值阈值的第二文本串，将剩余的第二文本串确定为保留文本串，并将保留文本串所对应的文本候选区域确定为保留文本候选区域；所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和...

【专利技术属性】
技术研发人员：曲贺，单亚慧，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人