视频特征的融合方法、装置、存储介质和处理器制造方法及图纸

技术编号:33641640 阅读:67 留言:0更新日期:2022-06-02 20:16
本发明专利技术公开了一种视频特征的融合方法、装置、存储介质和处理器。其中,该方法包括:获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;根据所述第一文本向量对所述第一图像特征矩阵进行处理,得到第二图像特征矩阵;根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵;根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本特征信息。本发明专利技术解决了由于视频中多种模态信息融合不充分造成的视频中信息描述不准确的技术问题。技术问题。技术问题。

【技术实现步骤摘要】
视频特征的融合方法、装置、存储介质和处理器


[0001]本专利技术涉及视频处理领域,具体而言,涉及一种视频特征的融合方法、装置、存储介质和处理器。

技术介绍

[0002]随着直播带货和社交短视频的兴起,视频技术在现代社会中应用的越来越广泛。而视频作为一种新兴的交互媒介,其不仅包含丰富的图像信息,文字和音频等多模态信息也会在其中有所呈现。为了对视频中的信息进行更准确的描述,需要将视频中出现的多种模态信息的特征进行融合。然而,现有技术中,对视频多模态信息特征的融合大多采用的是后融合方式,即从图像,文本或语音等多个子模态分别抽取特征,在网络结构的最后来采用加权的方式进行模态融合,这样的融合方式在信息交互上的作用是有限的,没能在网络训练的各个层次交互模态信息,无法充分的利用模态信息的互补作用。一些技术在训练同时进行跨模态的方法只考虑了简单的特征拼接,不能定位出有效的图像区域,融合效果不高。充分利用视频中多模态的信息能获得超过单一图像特征更优的性能,但是如何有效地对多模态特征信息进行融合一直是待解决的难题。
[0003]针对视频中多种模态信息融合不充分造成的视频中信息描述不准确的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种视频特征的融合方法、装置、存储介质和处理器,以至少解决由于视频中多种模态信息融合不充分造成的视频中信息描述不准确的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种视频特征的融合方法,包括:获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;根据所述第一文本向量对所述第一图像特征矩阵进行处理,得到第二图像特征矩阵;根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵;根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本特征信息。
[0006]进一步地,根据所述第一文本向量对所述第一图像特征矩阵进行处理,得到第二图像特征矩阵包括:对所述第一图像特征矩阵进行卷积处理,得到第四图像特征矩阵;根据所述第一文本向量对所述第四图像特征矩阵进行处理,得到第五图像特征矩阵;根据预设函数对所述第五图像特征矩阵进行处理,得到第二图像特征矩阵。
[0007]进一步地,根据所述第一文本向量对所述第四图像特征矩阵进行处理,得到第五图像特征矩阵包括:将所述第一文本向量与所述第四图像特征矩阵进行矩阵相乘,得到第六图像特征矩阵;将所述第六图像特征矩阵与所述第六图像特征矩阵进行相乘,得到第五图像特征矩阵。
[0008]进一步地,在获取第一图像特征矩阵和第一文本向量之前,所述方法包括:获取视频中的音频信息;对所述音频信息进行处理,得到对应的文本信息;通过循环神经网络对所述文本信息进行处理,得到文本特征信息。
[0009]进一步地,根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵包括:对所述第三图像特征矩阵进行卷积处理,得到第七图像特征矩阵;将所述第一图像特征矩阵与所述第七图像特征矩阵进行求和处理,得到目标图像特征矩阵。
[0010]进一步地,所述目标图像特征矩阵与所述第一图像特征矩阵大小和结构相同,所述方法应用于多模态信号模型的训练中,所述多模态信号模型用于将多个模态信号的特征进行融合。
[0011]进一步地,根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵包括:对所述第一图像特征矩阵进行卷积处理,得到第八图像特征矩阵;将所述第八图像特征矩阵与所述第二图像特征矩阵进行矩阵相乘,得到所述第三图像特征矩阵。
[0012]根据本专利技术实施例的一个方面,提供了一种视频的处理方法,包括:获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;根据所述第一图像特征矩阵和所述第一文本向量,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本信息;对所述目标图像特征矩阵进行训练,得到目标视频分析模型;基于所述目标视频分析模型对所述视频进行处理,得到处理后的目标视频。
[0013]进一步地,所述视频包括直播视频,基于所述目标视频分析模型对所述视频进行处理,得到处理后的目标视频包括:基于所述目标视频分析模型对所述直播视频进行分类处理,得到分类处理后的直播视频,以及直播视频对应的分类标签。
[0014]根据本专利技术实施例的一个方面,提供了一种视频的处理方法,包括:接收客户端发送的服务调用请求,其中,所述服务调用请求中携带有对视频中的图像特征信息和文本特征信息进行融合的请求;响应所述服务调用请求,在服务器中根据第一文本向量对第一图像特征矩阵进行处理,得到第二图像特征矩阵,其中,所述第一图像特征矩阵中包括所述视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵;根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本特征信息;以及输出所述目标图像特征矩阵。
[0015]进一步地,所述目标图像特征矩阵用于多模态信号模型的训练中,所述多模态信号模型用于将多个模态信号的特征进行融合。
[0016]根据本专利技术实施例的另一方面,还提供了一种视频特征的融合装置,包括:第一获取单元,用于获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;第一处理单元,用于根据所述第一文本向量对所述第一图像特征矩阵进行处理,得到第二图像特征矩阵;第二获取单元,用于根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵;第二处理单元,用于根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征
信息和文本特征信息。
[0017]进一步地,所述第一处理单元包括:第一处理模块,用于对所述第一图像特征矩阵进行卷积处理,得到第四图像特征矩阵;第二处理模块,用于根据所述第一文本向量对所述第四图像特征矩阵进行处理,得到第五图像特征矩阵;第三处理模块,用于根据预设函数对所述第五图像特征矩阵进行处理,得到第二图像特征矩阵。
[0018]根据本专利技术实施例的一个方面,提供了一种视频的处理装置,所述装置包括:第四获取单元,用于获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;第五获取单元,用于根据所述第一图像特征矩阵和所述第一文本向量,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频特征的融合方法,其特征在于,所述方法包括:获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;根据所述第一文本向量对所述第一图像特征矩阵进行处理,得到第二图像特征矩阵;根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵;根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本特征信息。2.根据权利要求1所述的方法,其特征在于,根据所述第一文本向量对所述第一图像特征矩阵进行处理,得到第二图像特征矩阵包括:对所述第一图像特征矩阵进行卷积处理,得到第四图像特征矩阵;根据所述第一文本向量对所述第四图像特征矩阵进行处理,得到第五图像特征矩阵;根据预设函数对所述第五图像特征矩阵进行处理,得到第二图像特征矩阵。3.根据权利要求2所述的方法,其特征在于,根据所述第一文本向量对所述第四图像特征矩阵进行处理,得到第五图像特征矩阵包括:将所述第一文本向量与所述第四图像特征矩阵进行矩阵相乘,得到第六图像特征矩阵;将所述第六图像特征矩阵与所述第六图像特征矩阵进行相乘,得到第五图像特征矩阵。4.根据权利要求1所述的方法,其特征在于,在获取第一图像特征矩阵和第一文本向量之前,所述方法包括:获取视频中的音频信息;对所述音频信息进行处理,得到对应的文本信息;通过循环神经网络对所述文本信息进行处理,得到文本特征信息。5.根据权利要求1所述的方法,其特征在于,根据所述第一图像特征矩阵对所述第三图像特征矩阵进行处理,得到目标图像特征矩阵包括:对所述第三图像特征矩阵进行卷积处理,得到第七图像特征矩阵;将所述第一图像特征矩阵与所述第七图像特征矩阵进行求和处理,得到目标图像特征矩阵。6.根据权利要求1所述的方法,其特征在于,所述目标图像特征矩阵与所述第一图像特征矩阵大小和结构相同,所述方法应用于多模态信号模型的训练中,所述多模态信号模型用于将多个模态信号的特征进行融合。7.根据权利要求1所述的方法,其特征在于,根据所述第一图像特征矩阵和所述第二图像特征矩阵,得到第三图像特征矩阵包括:对所述第一图像特征矩阵进行卷积处理,得到第八图像特征矩阵;将所述第八图像特征矩阵与所述第二图像特征矩阵进行矩阵相乘,得到所述第三图像特征矩阵。8.一种视频的处理方法,其特征在于,所述方法包括:获取第一图像特征矩阵和第一文本向量,其中,所述第一图像特征矩阵中包括视频中的图像特征信息,所述第一文本向量中包括所述视频中的文本特征信息;
根据所述第一图像特征矩阵和所述第一文本向量,得到目标图像特征矩阵,其中,所述目标图像特征矩阵中包括融合后的图像特征信息和文本信息;对所述目标图像特征矩阵进行训练,得到目标视频分析模型;基于所述目标视频分析模型对所述视频进行处理,得到处理后的目标视频。9.根据权利要求8所述的方法,其特征在于,所述视频包括直播视频,基于所述目标视频分析模型对所述视频进行处理,得到处理后的目标视频包括:基于所述目标视频分析模型对所述直播视频进行分类处理,得到分类处理后的直播视频,以及直播视频对应的分类标签。10.一种视频的处理方法,其特征在于,包括:接收客户端发送的服务调用请求,其中,所述服务调用请求中携带有对视频中的...

【专利技术属性】
技术研发人员:熊雄张严浩谢晨伟郑赟潘攀徐盈辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1