视频精彩片段检测方法、装置、设备与存储介质制造方法及图纸

技术编号:34373990 阅读:24 留言:0更新日期:2022-07-31 12:33
本发明专利技术公开了一种视频精彩片段检测方法、装置、设备与存储介质,属于视频处理技术领域。本发明专利技术通过获取待检测视频片段,并将待检测视频片段的帧数据提取出来,将其输入视频精彩片段检测模型,通过经常视频片段检测模型实现待检测视频片段精彩分数的预测,并根据精彩分数,以实现目标精彩片段的检测。视频精彩片段预测模型包含了两个相互约束的深度模型:成对噪声模型和三元组精彩程度模型,将这两个模型融入到视频精彩片段检测任务中,能够提高精彩片段检测的准确率。片段检测的准确率。片段检测的准确率。

Video highlights detection method, device, equipment and storage medium

【技术实现步骤摘要】
视频精彩片段检测方法、装置、设备与存储介质


[0001]本专利技术涉及计算机
,尤其涉及视频精彩片段检测方法、装置、设备与存储介质。

技术介绍

[0002]近年来,伴随着互联网带宽的不断扩大与数字信息存储成本的下降,海量的视频被不断地生成、发布、传播与存储,规模如此巨大的视频数据对视频内容分析技术提出了更高的要求。作为一项基础的视频内容分析技术,视频精彩片段检测技术近年来获得了广泛的研究。视频精彩片段检测的目的是在未编辑的完整视频中找到用户最关注或最感兴趣的视频片段。
[0003]然而,大多数现有的视频精彩片段检测方法都严重依赖人工标注的数据,而这些数据的获取成本非常高,这就阻碍了现有检测方法在大规模数据集以及未标注视频类别数据上的可扩展性。

技术实现思路

[0004]本专利技术的主要目的在于提供一种视频精彩片段检测方法、装置、设备与计算机可读存储介质,旨在解决现有检测方法依赖大量人工标注的数据的问题。
[0005]为实现上述目的,本专利技术提供一种视频精彩片段检测方法,所述视频精彩片段检测方法包括以下步骤:
[0006]获取待检测视频片段;
[0007]提取所述待检测视频片段的帧数据;
[0008]将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型;
[0009]根据所述精彩分数,确定目标精彩片段。
[0010]优选地,所述将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数的步骤之前还包括:
[0011]获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;
[0012]基于所述网络图片,训练得到所述视频精彩片段检测模型。
[0013]优选地,所述视频精彩片段检测模型包括成对噪声模型和三元组精彩程度模型,所述基于所述网络图片,训练得到所述视频精彩片段检测模型的步骤包括:
[0014]基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;
[0015]基于所述结果噪声分数,分离所述网络图片中的噪声图片;
[0016]基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。
[0017]优选地,所述训练成对噪声模型和三元组精彩程度模型,并基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数的步骤包括:
[0018]将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;
[0019]根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;
[0020]将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数;
[0021]将所述初始精彩分数和所述初始噪声分数输入第一公式,得到修正噪声分数;
[0022]将所述修正噪声分数、相关网络图片和噪声网络图片输入成对噪声模型训练得到所述网络图片的结果噪声分数。
[0023]优选地,所述训练成对噪声模型和三元组精彩程度模型,并基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果精彩分数的步骤包括:
[0024]给定所述修正噪声分数,并获取初始精彩分数、精彩片段集合、非精彩片段集合和网络图片集合;
[0025]通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数。
[0026]优选地,所述通过所述三元组精彩程度模型获得所述网络图片调整后的结果精彩分数的步骤之后,所述方法还包括:
[0027]固定所述三元组精彩程度模型的第一模型参数不变,根据成对深度排序交叉熵铰链损失函数来训练成对噪声模型并更新所述第一模型参数;
[0028]固定所述成对噪声模型的第二模型参数不变,根据三元组排序交叉熵铰链损失函数来训练三元组精彩程度模型并更新所述第二模型参数,所述三元组排序交叉熵铰链损失函数包括差额项和排序约束项,所述差额项用于约束精彩片段或网络图片的精彩分数与非精彩片段的精彩分数的差值,所述排序约束项用于约束精彩片段、非精彩片段以及网络图片对应的精彩分数的大小关系;
[0029]迭代训练所述三元组精彩程度模型和所述成对噪声模型,直到所述结果噪声分数、所述结果精彩分数、所述第一模型参数和所述第二模型参数都保持不变为止。
[0030]优选地,所述将精彩视频帧、非精彩视频帧和网络图片输入三元组精彩程度模型的步骤之前,所述方法还包括:
[0031]获取精彩片段集合和网络图片的深度学习特征向量、精彩片段集合和网络图片集合,所述精彩片段集合和所述网络图片集合标注有类别标签;
[0032]计算所述精彩片段集合与所述网络图片集合之间的域间隙;
[0033]从所述网络图片中过滤掉所述域间隙高于阈值的类别的网络图片。
[0034]此外,为实现上述目的,本专利技术还提供一种视频精彩片段检测装置,所述装置包括:
[0035]获取模块,用于获取待检测视频片段;
[0036]帧提取模块,用于提取所述待检测视频片段的帧数据;
[0037]预测模块,用于将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型;
[0038]锁定模块,用于根据所述精彩分数,确定目标精彩片段。
[0039]优选地,所述装置还用包括:
[0040]模型训练模块,用于获取网络图片,所述网络图片为视频精彩片段检测模型的弱监督信息;
[0041]优选地,所述模型训练模块还用于:
[0042]获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;
[0043]基于所述网络图片,训练得到所述视频精彩片段检测模型。
[0044]优选地,所述模型训练模块还用于:
[0045]基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;
[0046]基于所述结果噪声分数,分离所述网络图片中的噪声图片;
[0047]基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。
[0048]优选地,所述模型训练模块还用于:
[0049]将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;
[0050]根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;
[0051]将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数;
[0052]将所述初始精彩分数和所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频精彩片段检测方法,其特征在于,所述视频精彩片段检测方法包括以下步骤:获取待检测视频片段;提取所述待检测视频片段的帧数据;将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数,所述视频精彩片段检测模型包括两个互相约束的深度模型;根据所述精彩分数,确定目标精彩片段。2.如权利要求1所述的视频精彩片段检测方法,其特征在于,所述将所述帧数据输入视频精彩片段检测模型预测所述待检测视频片段的精彩分数的步骤之前还包括:获取网络图片,所述网络图片为视频精彩片段检测模型的训练数据;基于所述网络图片,训练得到所述视频精彩片段检测模型。3.如权利要求1所述的视频精彩片段检测方法,其特征在于,所述视频精彩片段检测模型包括成对噪声模型和三元组精彩程度模型,所述基于所述网络图片,训练得到所述视频精彩片段检测模型的步骤包括:基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数和结果精彩分数;基于所述结果噪声分数,分离所述网络图片中的噪声图片;基于所述分离噪声图片后的网络图片训练得到所述视频精彩片段检测模型。4.如权利要求3所述的视频精彩片段检测方法,其特征在于,所述基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果噪声分数的步骤包括:将所述网络图片输入噪声分类器,得到每一张网络图片对应的初始隐形噪声标签,所述初始隐形噪声标签用于标注网络图片是噪声图片还是精彩图片;根据所述初始隐形噪声标签,将所述网络图片分为相关网络图片和噪声网络图片,并获取所述初始隐性噪声标签对应的初始噪声分数;将精彩视频帧、非精彩视频帧和所述网络图片输入所述三元组精彩程度模型,得到所述网络图片的初始精彩分数;将所述初始精彩分数和所述初始噪声分数输入第一公式,得到修正噪声分数;将所述修正噪声分数、相关网络图片和噪声网络图片输入成对噪声模型训练得到所述网络图片的结果噪声分数。5.如权利要求3所述的视频精彩片段检测方法,其特征在于,所述基于所述成对噪声模型和所述三元组精彩程度模型,得到所述网络图片的结果精彩分数的步骤包括:给定所述修正噪声分数,并获取初始精彩分数、精彩片段集合、非精彩片段集合和网络图片集合;通过所述三元组精彩程度模型获得所述网络图片调整后的...

【专利技术属性】
技术研发人员:张健潘滢炜姚霆
申请(专利权)人:中国移动通信集团有限公司北京京东尚科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1