镜头分割、视觉任务处理方法、装置、电子设备以及介质制造方法及图纸

技术编号：36893913 阅读：41 留言：0更新日期：2023-03-15 22:14

本公开提供了一种镜头分割、视觉任务处理方法、装置、电子设备以及介质，涉及人工智能技术领域，尤其涉及视频处理、图像处理、计算机视觉和深度学习技术领域。具体实现方案为：对视频中的至少一个视频帧进行二维特征提取，得到与至少一个视频帧对应的局部视觉特征；根据与至少一个视频帧对应的局部视觉特征，确定与至少一个视频帧对应的全局视觉特征；根据与至少一个视频帧对应的全局视觉特征，确定视频的镜头分割信息。头分割信息。头分割信息。

全部详细技术资料下载

【技术实现步骤摘要】
镜头分割、视觉任务处理方法、装置、电子设备以及介质

[0001]本公开涉及人工智能
，尤其涉及视频处理、图像处理、计算机视觉和深度学习
具体地，涉及一种镜头分割、视觉任务处理方法、装置、电子设备以及介质。

技术介绍

[0002]随着计算机技术的发展，人工智能技术也得到了发展。例如，可以利用人工智能技术来实现视频理解。镜头分割是视频检索的任务之一，为视频理解提供了关键信息。镜头分割可以指用于将完整视频按照镜头边界划分为镜头片段的技术。

技术实现思路

[0003]本公开提供了一种用于镜头分割、视觉任务处理方法、装置、电子设备以及介质。
[0004]根据本公开的一方面，提供了一种镜头分割方法，包括：对视频中的至少一个视频帧进行二维特征提取，得到与上述至少一个视频帧对应的局部视觉特征；根据与上述至少一个视频帧对应的局部视觉特征，确定与上述至少一个视频帧对应的全局视觉特征；以及，根据与上述至少一个视频帧对应的全局视觉特征，确定上述视频的镜头分割信息。
[0005]根据本公开的另一方面，提供了一种视觉任务处理方法，包括：确定待处理视频的镜头分割信息，其中，上述待处理视频的镜头分割信息是利用镜头分割方法确定的；以及，根据上述待处理视频的镜头分割信息处理视觉任务。
[0006]根据本公开的另一方面，提供了一种镜头分割装置，包括：二维特征提取模块，用于对视频中的至少一个视频帧进行二维特征提取，得到与上述至少一个视频帧对应的局部视觉特征；第一确定模块，用于根据与上述至少一个视频帧对应...

【技术保护点】

【技术特征摘要】
1.一种镜头分割方法，包括：对视频中的至少一个视频帧进行二维特征提取，得到与所述至少一个视频帧对应的局部视觉特征；根据与所述至少一个视频帧对应的局部视觉特征，确定与所述至少一个视频帧对应的全局视觉特征；以及根据与所述至少一个视频帧对应的全局视觉特征，确定所述视频的镜头分割信息。2.根据权利要求1所述的方法，其中，所述对视频中的至少一个视频帧进行二维特征提取，得到与所述至少一个视频帧对应的局部视觉特征，包括：对所述视频中的至少一个视频帧进行二维卷积处理，得到与所述至少一个视频帧对应的局部视觉特征。3.根据权利要求1或2所述的方法，其中，所述根据与所述至少一个视频帧对应的局部视觉特征，确定与所述至少一个视频帧对应的全局视觉特征，包括：将所述至少一个视频帧划分为至少一个视频帧集；以及根据与所述至少一个视频帧集对应的局部视觉特征集，确定与所述至少一个视频帧对应的全局视觉特征。4.根据权利要求3所述的方法，其中，所述根据与所述至少一个视频帧集对应的局部视觉特征集，确定与所述至少一个视频帧对应的全局视觉特征，包括：基于全局特征提取策略对与所述至少一个视频帧集对应的局部视觉特征集进行M层级处理，得到与所述至少一个视频帧对应的全局视觉特征，其中，所述全局特征提取策略包括自注意力策略和相似度策略中的至少之一，M是大于或等于1的整数。5.根据权利要求4所述的方法，其中，在M大于1的情况下，所述基于全局特征提取策略对与所述至少一个视频帧集对应的局部视觉特征集进行M层级处理，得到与所述至少一个视频帧对应的全局视觉特征，包括：在1＜m≤M的情况下，根据第m
‑
1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，得到第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集，其中，所述第二中间全局视觉特征集包括至少一个第二中间全局视觉特征，所述第二中间全局视觉特征包括中间全局隐式视觉特征和中间全局显式视觉特征中的至少之一；根据所述第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集和所述第m
‑
1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，得到第m层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集；以及根据第R层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，得到与所述至少一个视频帧对应的全局视觉特征；其中，m是大于或等于1且小于或等于M的整数，R是大于或等于1且小于或等于M的整数。6.根据权利要求5所述的方法，其中，所述至少一个视频帧集包括N个，第n个所述视频帧集包括n
T
个所述视频帧，N是大于或等于1的整数，T是大于或等于1的整数；其中，在所述第二中间全局视觉特征包括所述中间全局隐式视觉特征的情况下，所述根据第m
‑
1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，得到第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集，包括：
针对N个所述视频帧集中的第n个所述视频帧集，根据所述第m
‑
1层级的与第n个所述视频帧集对应的第一中间全局视觉特征集，确定所述第m层级的与第n个所述视频帧集对应的至少一个第一矩阵集，其中，所述第一矩阵集包括第一查询矩阵、第一键矩阵和第一值矩阵；以及针对第n个所述视频帧集中的第n
t
个所述视频帧，根据所述第m层级的与第n
t
个所述视频帧对应的第一查询矩阵和所述第m层级的与第n个所述视频帧集对应的第一键矩阵，得到所述第m层级的与第n
t
个所述视频帧对应的第一注意力矩阵；根据所述第m层级的与第n
t
个所述视频帧对应的第一注意力矩阵和所述第m层级的与第n
t
个所述视频帧对应的第一值矩阵，得到所述第m层级的与第n
t
个所述视频帧对应的第三中间全局视觉特征；根据所述第m层级的与第n
t
个所述视频帧对应的第三中间全局视觉特征，得到所述第m层级的与第n
t
个所述视频帧对应的中间全局隐式视觉特征；其中，t是大于或等于1且小于或等于T的整数。7.根据权利要求6所述的方法，其中，在所述第二中间全局视觉特征包括所述中间全局显式视觉特征的情况下，所述根据第m
‑
1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，得到第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集，包括：针对N个所述视频帧集中的第n个所述视频帧集，根据所述第m
‑
1层级的与第n个所述视频帧集对应的第一中间全局视觉特征集，确定所述第m层级的第n个所述视频帧集中视频帧之间的相似度；以及根据所述第m层级的第n个所述视频帧集中视频帧之间的相似度，得到所述第m层级的与第n个所述视频帧集对应的中间全局显式视觉特征集。8.根据权利要求5～7中任一项所述的方法，其中，在所述第二中间全局视觉特征包括所述中间全局隐式视觉特征和所述中间全局显式视觉特征的情况下，所述根据所述第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集和所述第m
‑
1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，得到第m层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集，包括：将所述第m层级的与所述至少一个视频帧集对应的中间全局隐式视觉特征集和中间全局显式视觉特征集进行融合，得到所述第m层级的与所述至少一个视频帧集对应的第四中间全局视觉特征集；以及根据所述第m层级的与所述至少一个视频帧集对应的第四中间全局视觉特征集和所述第m
‑
1层级的与所述至少一...

【专利技术属性】
技术研发人员：唐鑫，王冠皓，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人