语料生成方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：34803571 阅读：18 留言：0更新日期：2022-09-03 20:10

本发明专利技术实施例公开了一种语料生成方法、装置、电子设备和计算机可读存储介质；本发明专利技术实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；该方案可以大大提升语音识别中的语料生成的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语料生成方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及通信
，具体涉及一种语料生成方法、装置和计算机可读存储介质。

技术介绍

[0002]近年来，随着互联网技术的飞速发展，语料在语言识别领域也变得越来越重要，语料的准确性往往可以决定语言识别的准确性。因此，需要生成准确的语料。现有的语料生成方法往往通过语音识别后辅助人工的方式进行标注。
[0003]在对现有技术的研究和实践过程中，本专利技术的专利技术人发现通过人工的方式往往需要大量的人力资源，而且比较容易产生误差，另外，对于一些小范围传播的特殊语言，语音识别的准确率往往较低，因此，导致语料生成的准确性较低。

技术实现思路

[0004]本专利技术实施例提供一种语料生成方法、装置、电子设备和计算机可读存储介质，可以提高语料生成的准确性。
[0005]一种语料生成方法，包括：
[0006]获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；
[0007]在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；
[0008]计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；
[0009]根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；
[0010]基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。
[0011]相应的，本专利技术实施例提供一种语料生成装置，包括：r/>[0012]获取单元，用于获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；
[0013]转换单元，用于在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；
[0014]计算单元，用于计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；
[0015]筛选单元，用于根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；
[0016]生成单元，用于基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。
[0017]可选的，在一些实施例中，所述计算单元，具体可以用于在所述字幕内容中识别出字幕字符串，并在所述文本内容中识别出文本字符串；计算所述字幕字符串与所述文本字
符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离；基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度。
[0018]可选的，在一些实施例中，所述计算单元，具体可以用于将所述字幕字符串与文本字符串进行融合，得到字符串距离；计算所述类编辑距离与字符串距离之间的距离差值；计算所述距离差值与所述字符串距离之间的比值，得到所述候选视频的文本相似度。
[0019]可选的，在一些实施例中，所述获取单元，具体可以用于对所述候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧；在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域；在所述视频帧中识别出所述字幕区域对应的文本，得到所述候选视频的字幕内容。
[0020]可选的，在一些实施例中，所述获取单元，具体可以用于对分帧后的视频帧进行文本识别，得到所述视频帧的视频帧文本；基于所述视频帧文本，对所述视频帧进行分类，得到每一视频帧文本对应的视频帧集合；根据所述视频帧对应的播放时间，对所述视频帧集合中的视频帧进行排序，并基于排序结果，在所述视频帧集合中筛选出关键视频帧。
[0021]可选的，在一些实施例中，所述获取单元，具体可以用于在所述视频帧文本中筛选出所述关键视频帧的至少一个关键视频帧文本，并在所述关键视频帧中识别出每一所述关键视频帧文本的文本位置信息；基于所述关键视频帧文本，在所述文本位置信息中筛选出目标位置信息；在所述关键视频帧中定位出所述目标位置信息对应的位置区域，得到所述候选视频的字幕区域。
[0022]可选的，在一些实施例中，所述获取单元，具体可以用于根据预设关键词，获取目标语言的基础视频集合；在所述基础视频集合中识别出每一视频的视频类型和所述视频类型的置信度；基于所述视频类型和置信度，在所述基础视频集合中筛选出至少一个候选视频。
[0023]可选的，在一些实施例中，所述获取单元，具体可以用于对所述基础视频集合中的每一视频的音频帧进行音频检测，得到所述音频帧的音频类型；对所述视频进行静音检测，并基于检测结果，对所述视频进行音频切割，得到至少一个音频片段；对所述音频片段进行特征提取，并基于提取出的音频特征和音频类型，确定所述视频的视频类型和所述视频类型的置信度。
[0024]可选的，在一些实施例中，所述获取单元，具体可以用于根据所述音频类型和音频特征，确定所述音频片段的语音类型和所述语音类型的分类信息；获取所述音频片段的音频时长，并基于所述音频时长，确定所述语音类型的分类权重；根据所述分类权重和分类信息，将所述视频的音频片段对应的语音类型进行融合，以得到所述视频的视频类型和所述视频类型的置信度。
[0025]可选的，在一些实施例中，所述生成单元，具体可以用于在所述字幕内容中筛选出所述目标视频的目标字幕内容；并在所述目标视频中提取出所述目标字幕内容对应的时间轴；将所述目标视频的音频内容、目标字幕内容和时间轴作为初始语料，并将所述初始语料发送至校验服务器进行校验，以得到所述目标语言的语料。
[0026]此外，本专利技术实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本专利技术实施例提供的语料生成方法。
[0027]此外，本专利技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本专利技术实施例所提供的任一种语料生成方法中的步骤。
[0028]本专利技术实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；由于该方案可以在候选视频中识别出字幕内容，并将候选视频的音频内容转换为文本内容，然后，根据字幕内容和文本内容的相似度，从而准确筛选出目标语言的目标视频，而且还可以将目标视频的字幕内容作为人工标注的参考，因此，可以大大提升语料生成的准确性。
附图说明
[0029]为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0030]图1是本专利技术实施例提供的语料生成方法的场景示意图；
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料生成方法，其特征在于，包括：获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。2.根据权利要求1所述的语料生成方法，其特征在于，所述计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度，包括：在所述字幕内容中识别出字幕字符串，并在所述文本内容中识别出文本字符串；计算所述字幕字符串与所述文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离；基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度。3.根据权利要求2所述的语料生成方法，其特征在于，所述基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度，包括：将所述字幕字符串与文本字符串进行融合，得到字符串距离；计算所述类编辑距离与字符串距离之间的距离差值；计算所述距离差值与所述字符串距离之间的比值，得到所述候选视频的文本相似度。4.根据权利要求1至3任一项所述的语料生成方法，其特征在于，所述对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容，包括：对所述候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧；在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域；在所述视频帧中识别出所述字幕区域对应的文本，得到所述候选视频的字幕内容。5.根据权利要求4所述的语料生成方法，其特征在于，所述在分帧后的视频帧中筛选出关键视频帧，包括：对分帧后的视频帧进行文本识别，得到所述视频帧的视频帧文本；基于所述视频帧文本，对所述视频帧进行分类，得到每一视频帧文本对应的视频帧集合；根据所述视频帧对应的播放时间，对所述视频帧集合中的视频帧进行排序，并基于排序结果，在所述视频帧集合中筛选出关键视频帧。6.根据权利要求4所述的语料生成方法，其特征在于，所述在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域，包括：在所述视频帧文本中筛选出所述关键视频帧的至少一个关键视频帧文本，并在所述关键视频帧中识别出每一所述关键视频帧文本的文本位置信息；基于所述关键视频帧文本，在所述文本位置信息中筛选出目标位置信息；在所述关键视频帧中定位出所述目标位置信息对应的位置区域，得到所述候选视频的字幕区域。7.根据权利要求1至3所述的语料生成方法，其特征在于，所述获取至少一个候选视频，包括：
根据预设关键词，获取目标语言的基础视频集...

【专利技术属性】
技术研发人员：王书培，刘攀，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人