【技术实现步骤摘要】
训练视频文本分类模型的方法、视频文本分类方法和装置
本申请涉及计算机
,具体涉及深度学习、图像处理
,尤其涉及训练视频文本分类模型的方法、视频文本分类方法和装置。
技术介绍
随着视频应用的井喷式发展,大量的视频不断生成,如何根据视频的文本信息对视频进行理解成为广泛研究的内容。现有技术中获取视频的文本信息以进行视频理解的方案为:(1)在获取每张图像的光学字符识别(OpticalCharacterRecognition,OCR)结果的基础上,直接拼接每张图像的文本识别结果。(2)采用基于模板的OCR结构化信息提取,在通用问题文本提取的结果上,根据给定模板进行位置匹配确定文本的类别。
技术实现思路
提供了一种训练视频文本分类模型的方法、视频文本分类方法和装置。根据第一方面,提供了一种训练视频文本分类模型的方法,包括:从目标视频中提取各帧图像;获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。根据第二方面,提供了一种视频文本分类方法,包括:从目标视频中提取各帧图像;获取 ...
【技术保护点】
1.一种训练视频文本分类模型的方法,包括:/n从目标视频中提取各帧图像;/n获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;/n采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;/n基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;/n将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。/n
【技术特征摘要】
1.一种训练视频文本分类模型的方法,包括:
从目标视频中提取各帧图像;
获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;
采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;
基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;
将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。
2.根据权利要求1所述的方法,所述光学字符识别结果还包括每个所述文本框的位置信息以及每个所述文本框内的文本信息;
所述采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合,包括:
根据每个所述文本框的位置信息,将所述各帧图像的光学字符识别结果中位于同一高度的文本框聚合成簇,得到至少一个簇;
在各个簇中,根据每个所述文本框内的文本信息确定所述文本框之间的文本编辑距离,将文本编辑距离在预设值以内的文本框进行合并得到至少一个合并后的文本框,并计算每个所述合并后的文本框的持续时长,所述合并后的文本框的持续时长为所述目标视频中包含所述合并后的文本框的视频帧所对应的持续时长;
在各个簇中,将持续时长分别在不同预设区间内的合并后的文本框划分至不同的文本框集合。
3.一种视频文本分类方法,包括:
从目标视频中提取各帧图像;
获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;
采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;
确定所述至少一个文本框集合中每个文本框集合的类别,将每个所述文本框集合的类别作为所述文本框集合中每个文本框内的文本的类别。
4.根据权利要求3所述的方法,所述方法还包括:
根据所述文本的类别确定所述文本的语义重要程度,根据所述文本和所述文本的语义重要程度提取所述目标视频的文本关键信息。
5.根据权利要求3所述的方法,其中,所述光学字符识别结果还包括每个所述文本框的位置信息以及每个所述文本框内的文本信息;
所述采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合,包括:
根据每个所述文本框的位置信息,将所述各帧图像的光学字符识别结果中位于同一高度的文本框聚合成簇,得到至少一个簇;
在各个簇中,根据每个所述文本框内的文本信息确定所述文本框之间的文本编辑距离,将文本编辑距离在预设值以内的文本框进行合并得到至少一个合并后的文本框,并计算每个所述合并后的文本框的持续时长,所述合并后的文本框的持续时长为所述目标视频中包含所述合并后的文本框的视频帧所对应的持续时长;
在各个簇中,将持续时长分别在不同预设区间内的合并后的文本框划分至不同的文本框集合。
6.根据权利要求5所述的方法,其中,所述文本框集合的类别基于以下步骤确定:
将满足以下至少一项要求的文本框集合确定为目标类别:
所述文本框集合内的文本框数量在目标类别对应的第一目标区间内;
所述文本框集合内的文本框持续时长的均值在目标类别对应的第二目标区间内;以及
所述文本框集合内的文本框的文本编辑距离的均值在目标类别对应的第三目标区间内。
7.根据权利要求3所述的方法,其中,所述文本框集合的类别基于以下步骤确定:
基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;
将每个所述文本框集合的分类特征输入采用如权利要求1-2任一项所述的训练视频文本分类模型的方法所训练完成的视频文本分类模型,所述视频文本分类模型输出所述文本框集合的类别。
8.一种训练视频文本分类模型的装置,包括:
图像提取模块,被配置为从目标视频中提取各帧图像;
字符识别模块,被配置为获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;
文本框聚...
【专利技术属性】
技术研发人员:王贺伟,马彩虹,叶芷,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。