训练视频文本分类模型的方法、视频文本分类方法和装置制造方法及图纸

技术编号:26599293 阅读:17 留言:0更新日期:2020-12-04 21:21
本申请的实施例公开了一种训练视频文本分类模型的方法、视频文本分类方法和装置,涉及人工智能技术领域,具体为深度学习、图像处理技术领域。具体实现方案为:从目标视频中提取各帧图像;获取各帧图像的光学字符识别结果,光学字符识别结果包括至少一个文本框;采用聚合特征对各帧图像的光学字符识别结果中的文本框进行聚合,得到对应聚合特征的至少一个文本框集合;确定至少一个文本框集合中每个文本框集合的类别,将每个文本框集合的类别作为文本框集合中每个文本框内的文本的类别。本申请的实施例提供的视频文本分类方法,每个文本框集合能够较为纯净地对应一个文本类别。且根据文本框集合的特征确定文本类别,无需预先给定模板,适用范围广泛。

【技术实现步骤摘要】
训练视频文本分类模型的方法、视频文本分类方法和装置
本申请涉及计算机
,具体涉及深度学习、图像处理
,尤其涉及训练视频文本分类模型的方法、视频文本分类方法和装置。
技术介绍
随着视频应用的井喷式发展,大量的视频不断生成,如何根据视频的文本信息对视频进行理解成为广泛研究的内容。现有技术中获取视频的文本信息以进行视频理解的方案为:(1)在获取每张图像的光学字符识别(OpticalCharacterRecognition,OCR)结果的基础上,直接拼接每张图像的文本识别结果。(2)采用基于模板的OCR结构化信息提取,在通用问题文本提取的结果上,根据给定模板进行位置匹配确定文本的类别。
技术实现思路
提供了一种训练视频文本分类模型的方法、视频文本分类方法和装置。根据第一方面,提供了一种训练视频文本分类模型的方法,包括:从目标视频中提取各帧图像;获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。根据第二方面,提供了一种视频文本分类方法,包括:从目标视频中提取各帧图像;获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;确定所述至少一个文本框集合中每个文本框集合的类别,将每个所述文本框集合的类别作为所述文本框集合中每个文本框内的文本的类别。根据第三方面,提供了一种训练视频文本分类模型的装置,包括:图像提取模块,被配置为从目标视频中提取各帧图像;字符识别模块,被配置为获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;文本框聚合模块,被配置为采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;分类特征确定模块,被配置为基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;模型训练模块,被配置为将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。根据第四方面,提供了一种视频文本分类装置,包括:图像提取模块,被配置为从目标视频中提取各帧图像;字符识别模块,被配置为获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;文本框聚合模块,被配置为采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;文本类别确定模块,被配置为确定所述至少一个文本框集合中每个文本框集合的类别,将每个所述文本框集合的类别作为所述文本框集合中每个文本框内的文本的类别。与现有技术中直接拼接每张图像的字符识别结果,导致关键信息提取准确率低或者采用基于模板的OCR结构化信息提取确定文本类别需要特定的模板,适用性较差相比,根据本申请的技术方案,首先通过聚类特征对各帧图像中的文本框进行聚合,聚合过程中滤除了噪声,每个文本框集合能够较为纯净地对应一个文本类别;然后根据文本框集合的特征确定文本框集合的类别,不需要预先给定模板即可确定出视频中文本的类别,适用范围广泛;最后根据确定出的类别进行后续关键信息提取时能显著提升关键信息的准确率。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请的一些可以应用于其中的示例性系统架构图;图2是根据本申请的训练视频文本分类模型的方法的一个实施例的流程图;图3是根据本申请的视频文本分类方法的一个实施例的流程图;图4是根据本申请的视频文本分类方法的另一个实施例的流程图;图5是根据本申请的视频文本分类方法的又一个实施例的流程图;图6是根据本申请的视频文本分类方法的一个场景示意图;图7是根据本申请的训练视频文本分类模型的装置的一个实施例的结构示意图;图8是根据本申请的视频文本分类装置的一个实施例的结构示意图;图9是适于用来实现本申请的一些实施例的服务器或终端的计算机系统的结构示意图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1示出了可以应用本申请的训练视频文本分类模型的方法和视频文本分类方法的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103、服务器105任意两个之间提供通信链路的介质。网络104可以包括各种连接类别,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如各种客户端应用、多方交互应用、人工智能应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是支持文档处理应用的各种电子设备,包括但不限于智能终端、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。在实践中,本申请实施例所提供的训练视频文本分类模型的方法和视频文本分类方法可以由终端设备101本文档来自技高网...

【技术保护点】
1.一种训练视频文本分类模型的方法,包括:/n从目标视频中提取各帧图像;/n获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;/n采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;/n基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;/n将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。/n

【技术特征摘要】
1.一种训练视频文本分类模型的方法,包括:
从目标视频中提取各帧图像;
获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;
采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;
基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;
将每个所述文本框集合的分类特征分别作为视频文本分类模型的输入,将对应该文本框集合的分类特征的类别分别作为所述视频文本分类模型的期望输出,训练所述视频文本分类模型的初始模型,得到训练完成的视频文本分类模型。


2.根据权利要求1所述的方法,所述光学字符识别结果还包括每个所述文本框的位置信息以及每个所述文本框内的文本信息;
所述采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合,包括:
根据每个所述文本框的位置信息,将所述各帧图像的光学字符识别结果中位于同一高度的文本框聚合成簇,得到至少一个簇;
在各个簇中,根据每个所述文本框内的文本信息确定所述文本框之间的文本编辑距离,将文本编辑距离在预设值以内的文本框进行合并得到至少一个合并后的文本框,并计算每个所述合并后的文本框的持续时长,所述合并后的文本框的持续时长为所述目标视频中包含所述合并后的文本框的视频帧所对应的持续时长;
在各个簇中,将持续时长分别在不同预设区间内的合并后的文本框划分至不同的文本框集合。


3.一种视频文本分类方法,包括:
从目标视频中提取各帧图像;
获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;
采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合;
确定所述至少一个文本框集合中每个文本框集合的类别,将每个所述文本框集合的类别作为所述文本框集合中每个文本框内的文本的类别。


4.根据权利要求3所述的方法,所述方法还包括:
根据所述文本的类别确定所述文本的语义重要程度,根据所述文本和所述文本的语义重要程度提取所述目标视频的文本关键信息。


5.根据权利要求3所述的方法,其中,所述光学字符识别结果还包括每个所述文本框的位置信息以及每个所述文本框内的文本信息;
所述采用聚合特征对所述各帧图像的光学字符识别结果中的文本框进行聚合,得到对应所述聚合特征的至少一个文本框集合,包括:
根据每个所述文本框的位置信息,将所述各帧图像的光学字符识别结果中位于同一高度的文本框聚合成簇,得到至少一个簇;
在各个簇中,根据每个所述文本框内的文本信息确定所述文本框之间的文本编辑距离,将文本编辑距离在预设值以内的文本框进行合并得到至少一个合并后的文本框,并计算每个所述合并后的文本框的持续时长,所述合并后的文本框的持续时长为所述目标视频中包含所述合并后的文本框的视频帧所对应的持续时长;
在各个簇中,将持续时长分别在不同预设区间内的合并后的文本框划分至不同的文本框集合。


6.根据权利要求5所述的方法,其中,所述文本框集合的类别基于以下步骤确定:
将满足以下至少一项要求的文本框集合确定为目标类别:
所述文本框集合内的文本框数量在目标类别对应的第一目标区间内;
所述文本框集合内的文本框持续时长的均值在目标类别对应的第二目标区间内;以及
所述文本框集合内的文本框的文本编辑距离的均值在目标类别对应的第三目标区间内。


7.根据权利要求3所述的方法,其中,所述文本框集合的类别基于以下步骤确定:
基于每个所述文本框集合的位置特征、字符特征和聚类特征,确定每个所述文本框集合的分类特征;
将每个所述文本框集合的分类特征输入采用如权利要求1-2任一项所述的训练视频文本分类模型的方法所训练完成的视频文本分类模型,所述视频文本分类模型输出所述文本框集合的类别。


8.一种训练视频文本分类模型的装置,包括:
图像提取模块,被配置为从目标视频中提取各帧图像;
字符识别模块,被配置为获取所述各帧图像的光学字符识别结果,所述光学字符识别结果包括至少一个文本框;
文本框聚...

【专利技术属性】
技术研发人员:王贺伟马彩虹叶芷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1