一种处理视频的方法及装置制造方法及图纸

技术编号:29283636 阅读:15 留言:0更新日期:2021-07-16 23:38
本申请涉及人工智能领域中计算机视觉领域的视频片段定位技术,提供了一种处理视频的方法及装置。涉及人工智能领域,具体涉及计算机视觉领域以及自然语言处理领域。该方法包括:获取输入语句的语义特征;根据所述语义特征获取对视频帧进行语义加强,得到所述视频帧的视频特征,所述视频特征中包括所述语义特征;根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段。该方法有助于提高识别输入语句对应的目标视频片段的准确率。入语句对应的目标视频片段的准确率。入语句对应的目标视频片段的准确率。

【技术实现步骤摘要】
一种处理视频的方法及装置


[0001]本申请涉及人工智能领域,并且更具体地,涉及一种处理视频的方法及装置。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]随着人工智能技术的快速发展,深度学习技术在计算机视觉领域以及自然语言处理领域都取得了巨大的进展,对两个领域的联合研究也越来越受关注,例如,根据自然语言描述对视频片段(video clip)进行定位的问题,但是,相比于根据自然语言描述对静态图像进行检测的问题,根据自然语言描述对视频片段进行定位的问题更为复杂。
[0004]因此,如何根据自然语言描述对视频片段进行定位,成为一个亟需解决的技术问题。

技术实现思路

[0005]本申请提供一种处理视频的方法及装置,有助于提高识别输入语句对应的目标视频片段的准确率。
[0006]第一方面,提供了一种处理视频的方法,该方法包括:获取输入语句的语义特征;根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,所述视频特征中包括所述语义特征;根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段。
[0007]在本申请实施例中,根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,可以将所述输入语句对应的语义融入所述视频帧的视频特征中,此时,根据所述语义特征和所述视频特征,识别所述输入语句对应的目标视频片段,能够提高识别输入语句对应的目标视频片段的准确率。
[0008]其中,所述输入语句的语义特征可以为该输入语句的特征向量,该输入语句的特征向量可以用于表示所述输入语句。换句话说,所述输入语句的语义特征也可以认为是所述输入语句的向量形式的表达。
[0009]例如,可以使用循环神经网络(recurrent neural network,RNN)获取输入语句的语义特征。或者,也可以使用其他神经网络获取输入语句的语义特征,本申请实施例中对此并不限定。
[0010]类似地,所述视频帧的视频特征可以为该视频帧的特征向量,该视频帧的特征向
量可以用于表示所述视频帧。换句话说,所述视频帧的视频特征也可以认为是所述视频帧的向量形式的表达。
[0011]其中,所述视频特征中包括所述语义特征,可以是指,所述视频特征中包括所述输入语句对应的语义,或者,所述视频特征中携带所述输入语句对应的语义。
[0012]需要说明的是,上述语义加强可以是指基于所述语义特征协同构建所述视频帧的视频特征,或者说,将所述语义特征(或者也可以理解为所述输入语句对应的语义)融合到所述视频帧的视频特征中。
[0013]例如,可以在提取所述视频帧的视频特征时,基于所述语义特征对所述视频帧进行语义加强,直接获得语义加强后的(所述视频帧的)视频特征。
[0014]再例如,也可以先获取所述视频帧的初始视频特征,随后基于所述语义特征对所述视频帧的初始视频特征进行语义加强,获得语义加强后的(所述视频帧的)视频特征。
[0015]结合第一方面,在第一方面的某些实现方式中,所述根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,包括:确定所述输入语句中与所述视频帧对应的词;根据所述与所述视频帧对应的词的语义特征,对视频帧进行语义加强,得到所述视频帧的视频特征。
[0016]在本申请实施例中,使用所述输入语句中与所述视频帧最相关的词的语义特征,对所述视频帧进行语义加强,可以使所述视频帧的视频特征更准确,此时,根据所述视频特征识别所述输入语句对应的目标视频片段,能够提高识别输入语句对应的目标视频片段的准确率。
[0017]结合第一方面,在第一方面的某些实现方式中,所述根据所述语义特征对视频帧进行语义加强,得到所述视频中的视频帧的视频特征,包括:根据所述语义特征对所述视频帧进行特征提取,得到所述视频帧的视频特征。
[0018]在本申请实施例中,结合所述输入语句的语义特征对所述视频帧进行特征提取,可以直接在特征提取的过程中对所述视频帧的视频特征进行语义加强,有助于提高识别输入语句对应的目标视频片段的效率。
[0019]结合第一方面,在第一方面的某些实现方式中,所述方法还包括:获取所述视频帧的初始视频特征;其中,所述根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,包括:根据所述语义特征对所述初始视频特征进行语义加强,得到所述视频帧的视频特征。
[0020]结合第一方面,在第一方面的某些实现方式中,所述方法还包括:使用至少一个其他视频帧的视频特征,对所述视频帧的视频特征进行特征融合,得到所述视频帧的融合视频特征,所述其他视频帧和所述视频帧属于同一个视频;其中,所述根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段,包括:根据所述语义特征和所述融合视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段。
[0021]在本申请实施例中,使用所述视频中的其他视频帧的视频特征,对所述视频帧的视频特征进行特征融合,将所述视频中的上下文信息融入所述视频帧的视频特征中,可以使所述视频帧的视频特征更准确,此时,根据所述视频特征识别所述输入语句对应的目标视频片段,能够提高识别输入语句对应的目标视频片段的准确率。
[0022]可选地,可以将所述至少一个其他视频帧的视频特征与所述视频帧的视频特征相加,相加后得到的就是所述视频帧的融合视频特征。
[0023]此时,可以认为所述视频帧的融合视频特征中融合了所述至少一个其他视频帧的视频特征。
[0024]在本申请实施例中,也可以使用所述视频中除所述视频帧以外的所有其他视频帧的视频特征,对所述视频帧的视频特征进行特征融合,得到所述视频帧的融合视频特征。
[0025]或者,还可以使用所述视频中所有视频帧(包括所述视频帧)的视频特征,对所述视频帧的视频特征进行特征融合,得到所述视频帧的融合视频特征。
[0026]例如,可以计算所述视频中所有视频帧(包括所述视频帧)的视频特征的平均值,将该平均值与所述视频帧的视频特征相加,相加后得到的就是所述视频帧的融合视频特征。
[0027]再例如,所述视频中共包含t个视频帧,该t个视频帧的视频特征可以组成所述视频的视频特征序列{f1,f2,

,f
t
},其中,f
j
表示该输入语句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理视频的方法,其特征在于,包括:获取输入语句的语义特征;根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,所述视频特征中包括所述语义特征;根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段。2.根据权利要求1所述的方法,其特征在于,所述根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,包括:确定所述输入语句中与所述视频帧对应的词;根据所述与所述视频帧对应的词的语义特征,对所述视频帧进行语义加强,得到所述视频帧的视频特征。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述语义特征对视频帧进行语义加强,得到所述视频中的视频帧的视频特征,包括:根据所述语义特征对所述视频帧进行特征提取,得到所述视频帧的视频特征。4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取所述视频帧的初始视频特征;其中,所述根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,包括:根据所述语义特征对所述初始视频特征进行语义加强,得到所述视频帧的视频特征。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:使用至少一个其他视频帧的视频特征,对所述视频帧的视频特征进行特征融合,得到所述视频帧的融合视频特征,所述其他视频帧和所述视频帧属于同一个视频;其中,所述根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段,包括:根据所述语义特征和所述融合视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应的目标视频片段,包括:基于所述视频特征,确定所述视频片段在时域上的层次结构;根据所述语义特征和所述层次结构,确定所述视频片段是否为所述输入语句对应的目标视频片段。7.一种处理视频的装置,其特征在于,包括:获取输入语句的语义特征;根据所述语义特征对视频帧进行语义加强,得到所述视频帧的视频特征,所述视频特征中包括所述语义特征;根据所述语义特征和所述视频特征,确定所述视频帧所属的视频片段是否为所述输入语句对应...

【专利技术属性】
技术研发人员:宁可魏龙辉谢凌曦刘健庄田奇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1