对象检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38586034 阅读:9 留言:0更新日期:2023-08-26 23:28
本公开关于一种对象检测方法、装置、电子设备及存储介质,涉及计算机技术领域。本公开用以解决现有物体检测方法针对性不强,检测结果冗余的技术问题。该方法包括:确定目标视频中多个物体对象的特征信息,以及目标视频的文本内容;根据多个物体对象的特征信息以及文本内容的特征信息,确定文本内容与各物体对象之间的匹配度,得到多个目标匹配度;根据多个目标匹配度,从多个物体对象中确定目标视频的主体对象;主体对象对应的目标匹配度大于或者等于预设阈值。本公开可以成功检测出视频的主体对象,提高了视频检测的针对性。提高了视频检测的针对性。提高了视频检测的针对性。

【技术实现步骤摘要】
对象检测方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种对象检测方法、装置、电子设备及存储介质。

技术介绍

[0002]随着神经网络和计算力的提升,物体检测成为计算机视觉领域的一个核心问题。物体检测的目标首先是要检测图像中是否包含待检测的物体,并且,如果图像中包含待检测的物体,还需要确定该物体在图像中的位置。
[0003]目前比较流行的物体检测大多应用于单帧图像中,且检测结果较为宽泛,通常会将图像中的所有物体全部框出。这样对于物体种类较多的短视频来说,检测出的物体较多,导致检测结果冗余、针对性较弱。

技术实现思路

[0004]本公开提供一种对象检测方法、装置、电子设备及存储介质,用以解决现有物体检测方法针对性不强,检测结果冗余的技术问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种对象检测方法,方法包括:确定目标视频中多个物体对象的特征信息,以及目标视频的文本内容;根据多个物体对象的特征信息以及文本内容的特征信息,确定文本内容与各物体对象之间的匹配度,得到多个目标匹配度;根据多个目标匹配度,从多个物体对象中确定目标视频的主体对象;主体对象对应的目标匹配度大于或者等于预设阈值。
[0006]可选的,确定目标视频的图像帧中多个物体的特征信息,包括:获取目标视频的多个图像帧,并分别对各图像帧上包括的物体对象进行物体检测,得到多个第一物体图像;根据预设聚类算法,对多个第一物体图像进行聚类处理,得到至少一个物体图像集合;一个物体图像集合中的物体图像所表示的物体相同;分别从各物体图像集合中确定一个第二物体图像,得到多个第二物体图像,并将多个第二物体图像的特征信息作为目标视频的图像帧中多个物体的特征信息;一个第二物体图像为一个物体图像集合中图像质量最高的图像。
[0007]可选的,方法还包括:获取目标视频的音频信息,并将音频信息进行文本转换,得到第一文本信息;获取目标视频的描述信息,将描述信息作为第二文本信息;描述信息包括目标视频的标题和/或视频类型;基于第一文本信息以及第二文本信息,得到目标视频的文本内容。
[0008]可选的,基于第一文本信息以及第二文本信息,得到目标视频的文本内容,包括:根据预设词库,从第一文本信息以及第二文本信息中提取目标关键词,得到至少一个目标关键词;目标关键词与预设词库中的词之间的相似度大于或等于预设相似度;将至少一个目标关键词作为目标视频的文本内容。
[0009]可选的,根据多个物体的特征信息以及文本内容的特征信息,确定文本内容与各物体对象之间的匹配度,得到多个目标匹配度,包括:将文本内容以及一个第二物体图像输
入预设的匹配模型,输出文本内容与第二物体图像之间的匹配度,并将匹配度作为一个目标匹配度;匹配模型为基于多个样本文本内容、多个样本图像以及多个样本标签训练得到;一个样本标签用于表征一个样本图像对应的样本文本内容。
[0010]可选的,将文本内容以及一个第二物体图像输入预设的匹配模型,输出文本内容与第二物体图像之间的匹配度,包括:将文本内容以及一个第二物体图像输入预设的匹配模型,以通过匹配模型分别提取文本内容的特征信息以及第二物体图像的特征信息;计算文本内容的特征信息与第二物体图像的特征信息之间的相似度,并将相似度作为文本内容与第二物体图像之间的匹配度进行输出。
[0011]可选的,方法还包括:将目标视频输入预设的分类模型,输出目标视频的视频类型;分类模型为基于多个样本视频以及多个样本视频类型训练得到;一个样本视频对应一个样本视频类型。
[0012]根据本公开实施例的第二方面,提供一种对象检测装置,装置包括确定单元以及处理单元;确定单元,被配置为用于确定目标视频的图像帧中多个物体对象的特征信息,以及确定目标视频的文本内容的特征信息;文本内容用于描述关键物体对象;处理单元,还被配置为用于根据多个物体对象的特征信息以及文本内容的特征信息,确定文本内容与各物体对象之间的匹配度,得到多个目标匹配度;确定单元,还被配置为用于根据多个目标匹配度,从多个物体对象中确定目标视频的主体对象;主体对象对应的目标匹配度大于或者等于预设阈值。
[0013]可选的,确定单元,具体用于:获取目标视频的多个图像帧,并分别对各图像帧上包括的物体对象进行物体检测,得到多个第一物体图像;根据预设聚类算法,对多个第一物体图像进行聚类处理,得到至少一个物体图像集合;一个物体图像集合中的物体图像所表示的物体相同;分别从各物体图像集合中确定一个第二物体图像,得到多个第二物体图像,并将多个第二物体图像的特征信息作为目标视频的图像帧中多个物体的特征信息;一个第二物体图像为一个物体图像集合中图像质量最高的图像。
[0014]可选的,装置还包括获取单元,获取单元用于:获取目标视频的音频信息,并将音频信息进行文本转换,得到第一文本信息;获取目标视频的描述信息,将描述信息作为第二文本信息;描述信息包括目标视频的标题和/或视频类型;基于第一文本信息以及第二文本信息,得到目标视频的文本内容。
[0015]可选的,获取单元,具体用于:根据预设词库,从第一文本信息以及第二文本信息中提取目标关键词,得到至少一个目标关键词;目标关键词与预设词库中的词之间的相似度大于或等于预设相似度;将至少一个目标关键词作为目标视频的文本内容。
[0016]可选的,处理单元,具体用于:将文本内容以及一个第二物体图像输入预设的匹配模型,输出文本内容与第二物体图像之间的匹配度,并将匹配度作为一个目标匹配度;匹配模型为基于多个样本文本内容、多个样本图像以及多个样本标签训练得到;一个样本标签用于表征一个样本图像对应的样本文本内容。
[0017]可选的,处理单元,具体用于:将文本内容以及一个第二物体图像输入预设的匹配模型,以通过匹配模型分别提取文本内容的特征信息以及第二物体图像的特征信息;计算文本内容的特征信息与第二物体图像的特征信息之间的相似度,并将相似度作为文本内容与第二物体图像之间的匹配度进行输出。
[0018]可选的,处理单元还用于:将目标视频输入预设的分类模型,输出目标视频的视频类型;分类模型为基于多个样本视频以及多个样本视频类型训练得到;一个样本视频对应一个样本视频类型。
[0019]根据本公开实施例的第三方面,提供一种电子设备,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的对象检测方法。
[0020]根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面的对象检测方法。
[0021]本公开提供的技术方案至少带来以下有益效果:对象检测装置确定目标视频的图像帧中多个物体对象的特征信息,以明确目标视频所包括的物体对象。对象检测装置确定目标视频的文本内容,使得对象检测装置可以了解目标视频所要体现的意图物品。对象检测装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对象检测方法,其特征在于,所述方法包括:确定目标视频中多个物体对象的特征信息,以及所述目标视频的文本内容;根据所述多个物体对象的特征信息以及所述文本内容的特征信息,确定所述文本内容与各所述物体对象之间的匹配度,得到多个目标匹配度;根据所述多个目标匹配度,从所述多个物体对象中确定所述目标视频的主体对象;所述主体对象对应的所述目标匹配度大于或者等于预设阈值。2.根据权利要求1所述的对象检测方法,其特征在于,所述确定目标视频中多个物体对象的特征信息,包括:获取所述目标视频的多个图像帧,并分别对各图像帧上包括的物体对象进行物体检测,得到多个第一物体图像;对所述多个第一物体图像进行聚类处理,得到至少一个物体图像集合;所述一个物体图像集合中的物体图像所表示的物体相同;分别从各物体图像集合中确定一个第二物体图像,得到多个第二物体图像;一个第二物体图像为一个物体图像集合中图像质量最高的图像;将所述多个第二物体图像的特征信息作为所述目标视频中多个物体对象的特征信息。3.根据权利要求1所述的对象检测方法,其特征在于,所述方法还包括:获取所述目标视频的音频信息,并将所述音频信息进行文本转换,得到第一文本信息;获取所述目标视频的描述信息,将所述描述信息作为第二文本信息;所述描述信息包括所述目标视频的标题和/或视频类型;基于所述第一文本信息以及所述第二文本信息,得到所述目标视频的文本内容。4.根据权利要求3所述的对象检测方法,其特征在于,所述基于所述第一文本信息以及所述第二文本信息,得到所述目标视频的文本内容,包括:根据预设词库,从所述第一文本信息以及所述第二文本信息中提取目标关键词,得到至少一个目标关键词;所述预设词库包括多个用于表征物体名称的词语;所述目标关键词与所述预设词库中的词之间的相似度大于或等于预设相似度;将所述至少一个目标关键词作为所述目标视频的文本内容。5.根据权利要求2所述的对象检测方法,其特征在于,所述根据所述多个物体对象的特征信息以及所述文本内容的特征信息,确定所述文本内容与各所述物体对象之间的匹配度,得到多个目标匹配度,包括:将所述文本内容以及一个第二物体图像输入预设的匹配模型,输出所...

【专利技术属性】
技术研发人员:钟华松
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1