一种视频字幕关键词识别方法及装置制造方法及图纸

技术编号:21433057 阅读:29 留言:0更新日期:2019-06-22 12:10
本发明专利技术公开一种视频字幕关键词识别方法及装置,该方法包括:从视频数据中提取视频关键帧;获取视频关键帧对应的文本行图像;识别文本行图像中包括的所有文字字符;根据预设的关键词库,从所有文字字符中提取关键词。本发明专利技术从视频数据中提取了视频关键帧,基于深度神经网络对视频关键帧进行处理,去除视频复杂背景中的噪声影响,从视频关键帧中获取对应的文本行图像,基于文本行图像实现视频复杂背景中的文字检测、识别及关键词提取,提高了视频字幕识别及关键词提取的效率及准确性。

【技术实现步骤摘要】
一种视频字幕关键词识别方法及装置
本专利技术属于图像识别
,具体涉及一种视频字幕关键词识别方法及装置。
技术介绍
文字包含着丰富准确的语义信息,可传达人类的思想和情感。文字识别是智能视觉识别技术中的一个重要技术,在很多领域得到了广泛地研究及应用。其中,视频字幕识别就是文字识别技术在视频数据处理领域的应用。目前,相关技术中提供了一种视频字幕识别的方法,从视频帧中分割出文字图像区域,从文字图像区域中分离出单个文字,识别单个文字,将识别出的多个单个文字连接起来。但上述相关技术需要切割单个文字进行识别,识别效率很低。
技术实现思路
为解决上述问题,本专利技术提供一种视频字幕关键词识别方法及装置,基于深度神经网络对视频关键帧进行处理,去除视频复杂背景中的噪声影响,提高了视频字幕识别及关键词提取的效率及准确性。本专利技术通过以下几个方面来解决以上问题:第一方面,本专利技术实施例提供了一种视频字幕关键词识别方法,所述方法包括:从视频数据中提取视频关键帧;获取所述视频关键帧对应的文本行图像;识别所述文本行图像中包括的所有文字字符;根据预设的关键词库,从所述所有文字字符中提取关键词。结合第一方面,本专利技术实施例提供了上述第一方面的第一种可能的实现方式,其中,所述从视频数据中提取视频关键帧,包括:每隔预设时长从所述视频数据中提取一帧图像;将提取的当前帧图像与上一帧图像进行灰度值差值运算,得到所述当前帧图像对应的差值矩阵;根据所述差值矩阵包括的非零像素值,计算判定阈值;根据所述差值矩阵及所述判定阈值,确定所述当前帧图像是否为视频关键帧。结合第一方面的第一种可能的实现方式,本专利技术实施例提供了上述第一方面的第二种可能的实现方式,其中,所述根据所述差值矩阵包括的非零像素值,计算判定阈值,包括:计算所述差值矩阵包括的所有非零像素值的平均值及方差;确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量;根据所述第一数量和所述第二数量,计算判定阈值。结合第一方面的第一种可能的实现方式,本专利技术实施例提供了上述第一方面的第三种可能的实现方式,其中,所述根据所述差值矩阵及所述判定阈值,确定所述当前帧图像是否为视频关键帧,包括:统计所述差值矩阵包括的非零像素值的数量;若所述非零像素值的数量大于所述判定阈值,则将所述当前帧图像确定为视频关键帧。结合第一方面,本专利技术实施例提供了上述第一方面的第四种可能的实现方式,其中,所述获取所述视频关键帧对应的文本行图像,包括:通过预设的卷积神经网络对所述视频关键帧进行特征提取,得到所述视频关键帧对应的特征图;识别所述特征图中包括的各个文本框;根据所述各个文本框,获取所述视频关键帧对应的文本行图像。结合第一方面的第四种可能的实现方式,本专利技术实施例提供了上述第一方面的第五种可能的实现方式,其中,所述识别所述特征图中包括的各个文本框,包括:通过预设尺寸的滑动窗对所述特征图进行滑动检测,得到每个所述滑动窗对应的多个文本框的坐标;对每个所述滑动窗对应的所述多个文本框的坐标进行过滤,得到每个所述滑动窗对应的文本框。结合第一方面的第四种可能的实现方式,本专利技术实施例提供了上述第一方面的第六种可能的实现方式,其中,所述根据所述各个文本框,获取所述视频关键帧对应的文本行图像,包括:将所述各个文本框合并为文本行;通过区域特征提取MSER分水岭算法对所述文本行进行文字分割,得到所述文本行包括的每个文字区域的坐标;根据所述每个文字区域的坐标,从所述文本行中去除长宽比大于预设比值的文字区域;从所述特征图中截取所述文本行对应的文本行图像。结合第一方面,本专利技术实施例提供了上述第一方面的第七种可能的实现方式,其中,所述识别所述文本行图像中包括的所有文字字符,包括:获取所述文本行图像对应的卷积特征矩阵;通过双向长短期记忆网络LSTM的循环神经网络对所述卷积特征矩阵进行类别预测;将预测结果转化为文字字符。结合第一方面,本专利技术实施例提供了上述第一方面的第八种可能的实现方式,其中,所述根据预设的关键词库,从所述所有文字字符中提取关键词,包括:计算第一文字字符对应的第一转码序列,所述第一文字字符为所述所有文字字符中的任一文字字符;查询预设的关键词库包括的关键词与第二转码序列的对应关系中是否存在与所述第一转码序列相同的第二转码序列;如果是,则从所述所有文字字符中提取所述第一文字字符作为关键词。第二方面,本专利技术实施例提供了一种视频字幕关键词识别装置,所述装置包括:关键帧提取模块,用于从视频数据中提取视频关键帧;获取模块,用于获取所述视频关键帧对应的文本行图像;识别模块,用于识别所述文本行图像中包括的所有文字字符;关键词提取模块,用于根据预设的关键词库,从所述所有文字字符中提取关键词。在本专利技术实施例中,从视频数据中提取视频关键帧;获取视频关键帧对应的文本行图像;识别文本行图像中包括的所有文字字符;根据预设的关键词库,从所有文字字符中提取关键词。本专利技术从视频数据中提取了视频关键帧,基于深度神经网络对视频关键帧进行处理,去除视频复杂背景中的噪声影响,从视频关键帧中获取对应的文本行图像,基于文本行图像实现视频复杂背景中的文字检测、识别及关键词提取,提高了视频字幕识别及关键词提取的效率及准确性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例1所提供的一种视频字幕关键词识别方法的流程示意图;图2示出了本专利技术实施例1所提供的另一种视频字幕关键词识别方法的流程示意图;图3示出了本专利技术实施例2所提供的一种视频字幕关键词识别装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例1参见图1,本专利技术实施例提供了一种视频字幕关键词识别方法,该方法具体包括以下步骤:步骤101:从视频数据中提取视频关键帧。本专利技术实施例依据视频镜头变化的剧烈程度,减少视频数据在内容上的冗余度,从视频数据中提取能够反映视频内容的视频关键帧,具体通过如下步骤A1-A4的操作来提取视频关键帧,包括:A1:每隔预设时长从视频数据中提取一帧图像。上述预设时长可以为20秒、30秒或40秒等。读入视频数据的视频流。每个预设时长从视频流中提取一帧图像,如每个半分钟提取一帧图像。对于提取的每一帧图像都按照如下步骤A2和A3的操作来确定是否为视频关键帧。A2:将提取的当前帧图像与上一帧图像进行灰度值差值运算,得到当前帧图像对应的差值矩阵。对于提取的每一帧图像都进行灰度化处理,并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理。之后为了提高运算效率,本专利技术实施例还将每一帧图像对应的灰度图缩小至原图的预设比例,如将灰度图缩小至原图的四分之一或三分之一等。由于对于每一帧图像的处理过程都是相同的,因此本专利技术实施例以当前帧图像为例来说明,提本文档来自技高网...

【技术保护点】
1.一种视频字幕关键词识别方法,其特征在于,所述方法包括:从视频数据中提取视频关键帧;获取所述视频关键帧对应的文本行图像;识别所述文本行图像中包括的所有文字字符;根据预设的关键词库,从所述所有文字字符中提取关键词。

【技术特征摘要】
1.一种视频字幕关键词识别方法,其特征在于,所述方法包括:从视频数据中提取视频关键帧;获取所述视频关键帧对应的文本行图像;识别所述文本行图像中包括的所有文字字符;根据预设的关键词库,从所述所有文字字符中提取关键词。2.根据权利要求1所述的方法,其特征在于,所述从视频数据中提取视频关键帧,包括:每隔预设时长从所述视频数据中提取一帧图像;将提取的当前帧图像与上一帧图像进行灰度值差值运算,得到所述当前帧图像对应的差值矩阵;根据所述差值矩阵包括的非零像素值,计算判定阈值;根据所述差值矩阵及所述判定阈值,确定所述当前帧图像是否为视频关键帧。3.根据权利要求2所述的方法,其特征在于,所述根据所述差值矩阵包括的非零像素值,计算判定阈值,包括:计算所述差值矩阵包括的所有非零像素值的平均值及方差;确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量;根据所述第一数量和所述第二数量,计算判定阈值。4.根据权利要求2所述的方法,其特征在于,所述根据所述差值矩阵及所述判定阈值,确定所述当前帧图像是否为视频关键帧,包括:统计所述差值矩阵包括的非零像素值的数量;若所述非零像素值的数量大于所述判定阈值,则将所述当前帧图像确定为视频关键帧。5.根据权利要求1所述的方法,其特征在于,所述获取所述视频关键帧对应的文本行图像,包括:通过预设的卷积神经网络对所述视频关键帧进行特征提取,得到所述视频关键帧对应的特征图;识别所述特征图中包括的各个文本框;根据所述各个文本框,获取所述视频关键帧对应的文本行图像。6.根据权利要求5所述的方法,其特征在于,所述识别所述特征图中包括的各个文本...

【专利技术属性】
技术研发人员:熊荔张峰王子玮
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1