本发明专利技术提供一种视频描述语句生成方法及系统,对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。本发明专利技术创造性加入聚类这一过程,可以更好地对不同时间粒度的局部信息进行描述,防止采用等间隔采样不可避免会丢失部分局部信息的问题,即在减少局部信息丢失的前提下提升处理速度。所以,本发明专利技术有效克服了现有技术中的种种缺点而具高度产业利用价值。
【技术实现步骤摘要】
本专利技术涉及一种视频描述领域,特别是涉及一种视频描述语句生成方法及系统。
技术介绍
随着存储设备和数字化设备的使用以及多媒体技术的发展,多媒体数据呈现几何级数增长的趋势。如何高效组织和检索这些数据成为了当前一个亟待解决的问题。一般而言,用户倾向于用文本查找相关图像或视频,这使得标注技术受到了研究者们的广泛关注。视频标注实质是将多个相关的语义概念赋予到视频片段中,可分为基于人工的视频标注和基于机器学习的自动视频标注。完全使用人工标注是一项费时费力的工作,无法在大规模的数据集和概念集上应用。因此,使用机器学习方法来实现视频标注成为必然选择。现有对视频的描述方式包括对视频的每一帧进行分析,以获取描述语句,但是这种方式的效率比较低。现有技术中,也有通过采用等间隔采样的方式,获取视频的相关描述,但是这种方式往往会不可避免的造成局部信息的丢失。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种视频描述语句生成方法及系统,用于解决现有技术中不能高效且准确的对视频进行描述的问题。为实现上述目的及其他相关目的,本专利技术提供一种视频描述语句生成方法,包括:对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。于本专利技术一具体实施例中,将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。于本专利技术一具体实施例中,将所述聚类结果输入循环神经网络后,根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。于本专利技术一具体实施例中,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。于本专利技术一具体实施例中,将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。为实现上述目的及其他相关目的,本专利技术还提供一种视频描述语句生成系统,包括:特征向量生成模块,用以对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;划分模块,用以根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;描述语句生成模块,用以将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。于本专利技术一具体实施例中,所述划分模块将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。于本专利技术一具体实施例中,所述描述语句生成模块将所述聚类结果输入循环神经网络后,还用以根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。于本专利技术一具体实施例中,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。于本专利技术一具体实施例中,所述描述语句生成模块还用以将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。如上所述,本专利技术的视频描述语句生成方法及系统,对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。本专利技术创造性加入聚类这一过程,可以更好地对不同时间粒度的局部信息进行描述,防止采用等间隔采样不可避免会丢失部分局部信息的问题,即在减少局部信息丢失的前提下提升处理速度。附图说明图1显示为本专利技术的视频描述语句生成方法在一具体实施例中的流程示意图。图2显示为本专利技术的视频描述语句生成方法在一具体实施例中的应用示意图。图3显示为本专利技术的视频描述语句生成系统在一具体实施例中的模块示意图。元件标号说明1 视频描述语句生成系统11 特征向量生成模块12 划分模块13 描述语句生成模块S11~S13 步骤具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图示中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。请参阅图1,本专利技术的视频描述语句生成方法在一具体实施例中的流程示意图。所述视频描述语句生成方法,包括以下步骤:S11:对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;S12:根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;于本专利技术一具体实施例中,将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。优选的,所述相关系数与相邻帧的颜色特征、纹理特征、或者形状特征中的一者或多者有关。S13:将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。优选的,对所述聚类结果再用注意力机制分别计算在生成描述语句时,计算当前生成单词与视频各帧聚类结果的相关性。所谓注意力机制,意在模仿人对图像的视觉关注机制,在此处则用于衡量哪些帧更为重要,与当前单词联系更为紧密。于本专利技术一具体实施例中,将所述聚类结果输入循环神经网络后,根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。进一步的,当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。优选的,将当前单词与所述类中包含的所有帧的特征向量分别进行相关性计算,并根据计算结果获取所述当前单词与所述类的相关性。于本专利技术一具体实施例中,将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。且通过训练,即可得到关于该视频的描述语句。请参阅图2,显示为本专利技术的视频描述语句生成方法在一具体实施例中的应用示意图。其中,大括号内部加上前面的卷积处理整个构成了框架的编码(encoder)部分,LSTM(Long Short-Term Memory,长短时间记忆)则对应于框架的解码(decoder)部分。“编码”(encoder)部分是对视频特征向量处理,“解码”(decoder)部分则对词向量进行处理。首先将一个视频流通过卷积神经网络进行处理得到附图中所示的本文档来自技高网...
【技术保护点】
一种视频描述语句生成方法,其特征在于,包括:对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。
【技术特征摘要】
1.一种视频描述语句生成方法,其特征在于,包括:对获取的视频流通过卷积神经网络进行处理,以获得与所述视频流的各帧分别对应的特征向量;根据各所述特征向量,计算相邻帧的相关性,并据以对所述视频流的所有帧进行聚类处理,以将所述视频流对应的所有帧划分为多个类;将所述聚类结果输入循环神经网络,以获得与所述视频流对应的描述语句。2.根据权利要求1所述的视频描述语句生成方法,其特征在于:将所述视频流对应的所有帧划分为多个类的方式包括:根据各所述特征向量,计算相邻帧的相关系数,当所述相关系数大于预设系数阈值时,相应的两相邻帧被划分为一类。3.根据权利要求1所述的视频描述语句生成方法,其特征在于:将所述聚类结果输入循环神经网络后,根据当前单词与各所述类的相关性,获得与各所述类相关的单词,并据以获得与所述视频流对应的描述语句。4.根据权利要求3所述的视频描述语句生成方法,其特征在于:当当前单词与一所述类的相关性大于预设相关阈值时,所述单词为与所述类相关的单词。5.根据权利要求1所述的视频描述语句生成方法,其特征在于:将所述循环神经网络的内部状态也作为输入,以输出相应的单词,并据以获得具有时序特征的单词输出。6.一种视频描述语句生成系统,其特征在于,包括:特征向量生成模块,用...
【专利技术属性】
技术研发人员:郭大山,刘幸偕,方向忠,阮志强,徐宁,张芩,方大为,江勤勇,吴泳江,吴轶峰,祝晓清,孙哲,孔申勇,高原,杨哲峰,
申请(专利权)人:上海高智科技发展有限公司,上海高智特种车有限公司,上海高智通信研究院有限公司,上海高智网络股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。