System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种视频内容标签确定方法、装置、电子设备、存储介质及产品。
技术介绍
1、随着互联网的普及和社交媒体、视频短平台的兴起,极大地促进了多媒体内容的创造与传播,人们越来越倾向于快速发现与自己兴趣相匹配的视频内容,因此,对视频数据进行视频内容标签的生成是用户搜索与自己兴趣相匹配的视频的必要条件。
2、现有的视频内容标签确定的技术方案主要是通过人工审查内容的方式,手动添加标签,或者,通过分析视频标题、简介等文本信息,使用自然语言处理技术抽取关键词作为标签,但是,人工确定标签的方式主要依赖人的主观判断和专业知识,标签确定的效率和准确度较低,对视频标题、简介等文本信息进行关键词抽取的方式对于文本信息较少的视频,无法覆盖视频的细节,标签确定的准确度较低。
技术实现思路
1、基于上述需求,本申请提出一种视频内容标签确定方法、装置、电子设备及产品,能够提高确定视频内容标签的准确度和效率。
2、为实现上述目的,本申请提出如下技术方案:
3、根据本申请实施例的第一方面,提供了一种视频内容标签确定方法,包括:
4、通过检测视频数据中的视频镜头边界,对所述视频数据进行切割,得到至少一个视频镜头对应的视频片段;
5、基于所述视频片段中相邻图像帧之间的差异,从所述视频片段中提取出关键图像帧;
6、对所述关键图像帧进行识别,生成所述关键图像帧的描述文本,并基于所述关键图像帧的描述文本,提取所述视频数据对应的视频内容
7、可选的,通过检测视频数据中的视频镜头边界,对所述视频数据进行切割,得到至少一个视频镜头对应的视频片段,包括:
8、基于视频数据中相邻图像帧之间的差异,确定所述视频数据中视频镜头的边界图像帧;
9、按照所述边界图像帧,对所述视频数据进行切割,得到至少一个视频镜头对应的视频片段。
10、可选的,基于视频数据中相邻图像帧之间的差异,确定所述视频数据中视频镜头的边界图像帧,包括:
11、基于视频数据中的第一图像帧的像素点灰度值和第二图像帧的像素点灰度值之间的差异,确定所述第一图像帧与所述第二图像帧之间的第一差异图像;其中,所述第一图像帧为所述视频数据中除第一帧图像帧以外的任意图像帧,所述第二图像帧为与所述第一图像帧相邻的前一图像帧;
12、基于预先设置的灰度阈值,对所述第一差异图像中的各个像素点进行二值化处理,得到所述第一差异图像对应的二值化图像;
13、按照预设连通灰度值,确定所述二值化图像中的连通区域,并基于所述二值化图像中的连通区域,判别所述第一图像帧是否为所述视频数据中视频镜头的边界图像帧。
14、可选的,基于所述视频片段中相邻图像帧之间的差异,从所述视频片段中提取出关键图像帧,包括:
15、基于所述视频片段中的第三图像帧的像素点像素值和第四图像帧的像素点像素值之间的差异,确定所述第三图像帧对应的差异值;其中,所述第三图像帧为所述视频片段中除第一帧图像帧以外的任意图像帧,所述第四图像帧为与所述第三图像帧相邻的前一图像帧;
16、从差异值序列中查询局部极大值,并将所述局部极大值对应的图像帧作为所述视频片段中的关键图像帧;所述差异值序列包括所述视频片段中除第一帧图像帧以外的各个图像帧对应的差异值。
17、可选的,基于所述视频片段中的第三图像帧的像素点像素值和第四图像帧的像素点像素值之间的差异,确定所述第三图像帧对应的差异值,包括:
18、基于所述视频片段中的第三图像帧的像素点像素值和第四图像帧的像素点像素值之间的差异,确定所述第三图像帧与所述第四图像帧之间的第二差异图像;
19、将所述第二差异图像中所有像素点的像素值的平均值作为所述第三图像帧对应的差异值。
20、可选的,对所述关键图像帧进行识别,生成所述关键图像帧的描述文本,包括:
21、将所述关键图像帧和预先构建的描述文本生成指令输入到预先训练的多模态大模型中,得到所述关键图像帧的描述文本。
22、可选的,基于所述关键图像帧的描述文本,提取所述视频数据对应的视频内容标签之前,还包括:
23、对所述视频数据中的至少一帧图像帧进行文本区域检测,并对检测到的文本区域进行字符识别,得到所述视频数据对应的图像文本;
24、和/或,对所述视频数据对应的音频进行语音识别,得到所述视频数据对应的语音文本;
25、基于所述关键图像帧的描述文本,提取所述视频数据对应的视频内容标签,包括:
26、基于所述关键图像帧的描述文本,以及所述视频数据对应的图像文本和/或所述视频数据对应的语音文本,提取所述视频数据对应的视频内容标签。
27、可选的,基于所述关键图像帧的描述文本,以及所述视频数据对应的图像文本和/或所述视频数据对应的语音文本,提取所述视频数据对应的视频内容标签,包括:
28、将预先构建的标签提取指令、所述关键图像帧的描述文本,以及所述视频数据对应的图像文本和/或所述视频数据对应的语音文本,输入到预先训练的大语言模型中,得到所述视频数据对应的视频内容标签。
29、根据本申请实施例的第二方面,提供了一种视频内容标签确定装置,包括:
30、视频切割模块,用于通过检测视频数据中的视频镜头边界,对所述视频数据进行切割,得到至少一个视频镜头对应的视频片段;
31、图像帧提取模块,用于基于所述视频片段中相邻图像帧之间的差异,从所述视频片段中提取出关键图像帧;
32、标签确定模块,用于对所述关键图像帧进行识别,生成所述关键图像帧的描述文本,并基于所述关键图像帧的描述文本,提取所述视频数据对应的视频内容标签。
33、根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器和处理器;
34、所述存储器与所述处理器连接,用于存储程序;
35、所述处理器,用于通过运行所述存储器中的程序,实现上述视频内容标签确定方法。
36、根据本申请实施例的第四方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器实现上述视频内容标签确定方法。
37、本申请提出的视频内容标签确定方法,通过检测视频数据中的视频镜头边界,对视频数据进行切割,得到至少一个视频镜头对应的视频片段;基于视频片段中相邻图像帧之间的差异,从视频片段中提取出关键图像帧;对关键图像帧进行识别,生成关键图像帧的描述文本,并基于关键图像帧的描述文本,提取视频数据对应的视频内容标签。采用本申请的技术方案,能够从视频数据中的关键图像帧中提取出图像的描述文本,描述文本能够覆盖视频的细节,以使根据描述文本提取出的视频内容标签准确度更高,并且自动提取视频数据的视频内容标签,提高了确定视频内容标签的效率。
本文档来自技高网...【技术保护点】
1.一种视频内容标签确定方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,通过检测视频数据中的视频镜头边界,对所述视频数据进行切割,得到至少一个视频镜头对应的视频片段,包括:
3.根据权利要求2所述的方法,其特征在于,基于视频数据中相邻图像帧之间的差异,确定所述视频数据中视频镜头的边界图像帧,包括:
4.根据权利要求1所述的方法,其特征在于,基于所述视频片段中相邻图像帧之间的差异,从所述视频片段中提取出关键图像帧,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述视频片段中的第三图像帧的像素点像素值和第四图像帧的像素点像素值之间的差异,确定所述第三图像帧对应的差异值,包括:
6.根据权利要求1所述的方法,其特征在于,对所述关键图像帧进行识别,生成所述关键图像帧的描述文本,包括:
7.根据权利要求1所述的方法,其特征在于,基于所述关键图像帧的描述文本,提取所述视频数据对应的视频内容标签之前,还包括:
8.根据权利要求7所述的方法,其特征在于,基于所述关键图像帧的描述文本,以
9.一种视频内容标签确定装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:存储器和处理器;
11.一种计算机程序产品,其特征在于,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器实现如权利要求1至8中任意一项所述的视频内容标签确定方法。
...【技术特征摘要】
1.一种视频内容标签确定方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,通过检测视频数据中的视频镜头边界,对所述视频数据进行切割,得到至少一个视频镜头对应的视频片段,包括:
3.根据权利要求2所述的方法,其特征在于,基于视频数据中相邻图像帧之间的差异,确定所述视频数据中视频镜头的边界图像帧,包括:
4.根据权利要求1所述的方法,其特征在于,基于所述视频片段中相邻图像帧之间的差异,从所述视频片段中提取出关键图像帧,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述视频片段中的第三图像帧的像素点像素值和第四图像帧的像素点像素值之间的差异,确定所述第三图像帧对应的差异值,包括:
6.根据权利要求1所述的方法,其特征...
【专利技术属性】
技术研发人员:高远,张龙,邹宇,冯庭好,吕昕,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。