原版视频识别方法及装置制造方法及图纸

技术编号:25950930 阅读:16 留言:0更新日期:2020-10-17 03:43
本申请实施例公开了一种原版视频识别方法及装置,方法包括:获取待处理的多个视频的特征信息,所述特征信息包括标题和封面;对所述多个视频的特征信息进行聚类得到多个视频封面类簇;获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度;根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。采用本申请,能实现从大量短视频中准确识别出原版短视频,以此保障原版视频识别的准确度。

【技术实现步骤摘要】
原版视频识别方法及装置
本申请涉及计算机
,尤其涉及一种原版视频识别方法及装置。
技术介绍
随着短视频生态的发展,同一个短视频往往会在不同的平台由不同的用户上传或者转载。这里的转载有些是对原版短视频来源logo做一些变化处理,或者将封面图进行较小范围的重新编辑后,重新上传。而有些则是原版视频相关内容的进一步发酵、模仿甚至使用原版的BGM却套上了原版短视频标题关键词等。如下以近期流行的“黑人抬棺”短视频为例说明:在搜索或者推荐等信息分发场景下,当用户想看原版“黑人抬棺”时如何从不同数据源中找到最初引起广泛传播的原版短视频就显得尤为重要。目前,针对大量相关的短视频,用户想要获取最原始被广泛传播的原版视频时,更多的是通过判断视频标题中是否“原版”等关键词来识别该视频是否为原版短视频。但在视频传播的过程中,视频标题经过篡改和进一步的模仿、加工。很多非原版视频的标题中可能也具有“原版”标记。因此用户仅通过视频标题中的“原版”标记,来识别该视频是否为原版视频,识别的准确度很低,识别出的结果也并不可靠。
技术实现思路
本申请实施例提供了一种原版视频识别方法及装置,能实现从大量短视频中准确识别出原版短视频,以此保障原版视频识别的的准确度。第一方面,本申请实施例提供了一种原版视频识别方法,所述方法包括:获取待处理的多个视频的特征信息,所述特征信息包括标题和封面;对所述多个视频的特征信息进行聚类得到多个视频封面类簇;获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度;根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。第二方面,本申请实施例提供了一种原版视频识别装置,原版视频识别装置包括通信单元,处理单元,其中:所述处理单元,用于获取待处理的多个视频的特征信息,所述特征信息包括标题和封面;所述处理单元,还用于对所述多个视频的特征信息进行聚类得到多个视频封面类簇;所述处理单元,还用于获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度;所述处理单元,还用于根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。第四方面,本申请实施例提供了一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行如上述第一方面以及任一种可选的实现方式的方法。第五方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。第六方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的原版视频识别方法。可以看出,本申请实施例中,服务器基于获取的多个待处理的视频的特征信息,特征信息包括标题和封面,进行聚类,得到多个视频封面类簇。多维信息以及多层级的聚类,提高聚类的准确程度。并且获取每个视频封面类簇包括的视频的封面之间的相似度;根据相似度从多个视频封面类簇包括的视频中确定出原版视频。利用视频的特征信息以及相似度从多个视频中确定出原版短视频。有效提高原版短视频识别的准确度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例的提供的一种原版视频识别系统的结构示意图;图2是本申请实施例的提供的一种原版视频识别方法的流程示意图;图3A是本申请实施例提供的另一种原版视频识别方法的流程示意图;图3B是本申请实施例提供的一种k-means聚类算法的代码示意图;图3C是本申请实施例提供的一种视频标题类簇的示意图;图3D是本申请实施例提供的一种多个视频封面类簇的示意图;图3E是本申请实施例提供的一种CV特征提取的示意图;图3F是本申请实施例提供的一种封面图的Phash值的计算过程示意图;图3G是本申请实施例提供的一种视频封面类簇中的分类示意图;图4是本申请实施例的原版视频识别装置的功能单元示意图;图5是本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的本文档来自技高网...

【技术保护点】
1.一种原版视频识别方法,其特征在于,所述方法包括:/n获取待处理的多个视频的特征信息,所述特征信息包括标题和封面;/n对所述多个视频的特征信息进行聚类得到多个视频封面类簇;/n获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度;/n根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。/n

【技术特征摘要】
1.一种原版视频识别方法,其特征在于,所述方法包括:
获取待处理的多个视频的特征信息,所述特征信息包括标题和封面;
对所述多个视频的特征信息进行聚类得到多个视频封面类簇;
获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度;
根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。


2.根据权利要求1所述的方法,其特征在于,所述多个视频封面类簇中每个视频封面类簇包括的视频的数量达到第一数量阈值,所述根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频,包括:
针对所述每个视频封面类簇,获取所述相似度达到相似度阈值的视频在所述每个视频封面类簇中的数量占比;
确定所述每个视频封面类簇中对应的数量占比最高的多个候选视频;
根据发布时间从所述多个候选视频中确定出原版视频。


3.根据权利要求2所述的方法,其特征在于,所述根据发布时间从所述多个候选视频中确定出原版视频,包括:
比较所述每个视频封面类簇中对应的数量占比最高的多个候选视频的发布时间;
将发布时间最早的候选视频作为原版视频。


4.根据权利要求1所述的方法,其特征在于,所述对所述多个视频的特征信息进行聚类得到多个视频封面类簇,包括:
对所述多个视频的标题进行文本聚类得到多个视频标题类簇;
根据所述多个视频标题类簇确定目标视频集合;
对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇。


5.根据权利要求4所述的方法,其特征在于,所述对所述多个视频的标题进行文本聚类得到多个视频标题类簇,包括:
对所述多个视频中的每个视频的标题进行向量化处理,得到与所述多个视频的标题对应的多个标题向量;
对所述多个标题向量进行文本聚类得到多个视频标题类簇。

<...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1