一种视频数据的挖掘方法和装置制造方法及图纸

技术编号:14849181 阅读:165 留言:0更新日期:2017-03-18 09:07
本发明专利技术实施例提供了一种视频数据的挖掘方法和装置,其中,所述方法包括:采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;针对各个频道视频集,过滤掉不满足预设过滤条件的视频数据;对各个频道视频集中的视频数据进行聚类,获得视频聚类集合;获取各个视频聚类集合的视频集关键短语;针对各个视频聚类集合,提取包含视频集关键短语的视频数据,形成新的视频聚类集合;对各个新的视频聚类集合进行去重处理;计算各个新的视频聚类集合的平均相似度;保留平均相似度大于或等于预设阈值的新的视频聚类集合。本发明专利技术实施例可以提高优质视频的挖掘效率,避免人工挖掘优质视频的成本过高的问题。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是涉及一种视频数据的挖掘方法和一种视频数据的挖掘装置。
技术介绍
随着网络技术的不断发展和个性化需求的不断提高,视频网站中用户的参与度得到极大提升,用户生成内容(UserGeneratedContent,UGC)呈爆炸式增长。通常,视频网站上的UGC视频均具有数量庞大、复杂多样、极其分散的特点,UGC视频中具有大量的优质视频,同时也混杂着大量劣质视频,如何挖掘出散落在海量UGC视频中满足长尾需求(Long-tail)的、优质的视频成为一种需求。目前,尽管某些网站允许用户建立个人专辑,但由于用户自身的随意性和资源的不完整性,大部分专辑的质量不高、视频内容混乱,导致这些专辑都缺乏实际的可用性,同时,由于UGC视频的数量过于庞大,通过人工的方式来挖掘优质视频也变的不切实际,成本过高。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频数据的挖掘方法和相应的一种视频数据的挖掘装置。为了解决上述问题,本专利技术实施例公开了一种视频数据的挖掘方法,包括:采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;获取各个所述视频聚类集合的视频集关键短语;针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数据,形成新的视频聚类集合;对各个所述新的视频聚类集合进行去重处理;计算各个所述新的视频聚类集合的平均相似度;保留平均相似度大于或等于预设阈值的新的视频聚类集合。优选的,所述获取各个所述视频聚类集合的视频集关键短语的步骤包括:获取各个所述视频聚类集合中视频数据的第一视频文本;根据所述第一视频文本获取分词关键短语;根据所述第一视频文本获取模板关键短语;将所述分词关键短语和所述模板关键短语进行融合,获得视频集关键短语。优选的,所述根据所述第一视频文本获取分词关键短语的步骤包括:对所述第一视频文本进行分词处理,获得视频文本分词;统计各个所述视频文本分词在相应视频聚类集合中的出现频率;提取出现频率高于第一预设频率值的视频文本分词作为关键分词;将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分词关键短语。优选的,所述根据所述第一视频文本获取模板关键短语的步骤包括:加载预置关键短语模板;将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短语;统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率;提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。优选的,所述频道分类器通过以下方式训练:确定各个频道下的视频样本数据;获取各个频道下的视频样本数据的第二视频文本;采用所述第二视频文本训练频道分类器。优选的,所述对各个所述新的视频聚类集合进行去重处理的步骤包括:获取各个所述新的视频聚类集合中视频数据的第三视频文本;针对各个所述新的视频聚类集合,提取视频数据的第三视频文本中的量词;针对各个所述新的视频聚类集合,对具有相同量词的多个视频数据,只保留其中一个视频数据。优选的,还包括:采用视频文本中的量词,对各个所述新的视频聚类集合中的视频数据进行排序。优选的,所述计算各个所述新的视频聚类集合的平均相似度的步骤包括:计算各个所述新的视频聚类集合中的视频数据两两之间的相似度;将所计算获得的相似度累加,获得总和相似度;统计所计算获得的相似度的个数;将所述总和相似度与所述相似度的个数的比值作为平均相似度。本专利技术实施例还公开了一种视频数据的挖掘装置,包括:频道分类模块,用于采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;过滤模块,用于针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;聚类模块,用于对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;视频集关键短语获取模块,用于获取各个所述视频聚类集合的视频集关键短语;新的视频聚类集合生成模块,用于针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数据,形成新的视频聚类集合;去重模块,用于对各个所述新的视频聚类集合进行去重处理;平均相似度计算模块,用于计算各个所述新的视频聚类集合的平均相似度;挖掘结果确定模块,用于保留平均相似度大于或等于预设阈值的新的视频聚类集合。优选的,所述视频集关键短语获取模块包括:第一视频文本获取子模块,用于获取各个所述视频聚类集合中视频数据的第一视频文本;分词关键短语获取模块,用于根据所述第一视频文本获取分词关键短语;模板关键短语获取模块,用于根据所述第一视频文本获取模板关键短语;视频集关键短语获取模块,用于将所述分词关键短语和所述模板关键短语进行融合,获得视频集关键短语。本专利技术实施例包括以下优点:本专利技术实施可以采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集,针对各个频道视频集,过滤掉不满足预设过滤条件的视频数据,对各个频道视频集中的视频数据进行聚类,获得视频聚类集合,获取各个视频聚类集合的视频集关键短语,针对各个视频聚类集合,提取包含视频集关键短语的视频数据,形成新的视频聚类集合,对各个新的视频聚类集合进行去重处理,计算各个新的视频聚类集合的平均相似度,保留平均相似度大于或等于预设阈值的新的视频聚类集合,最终所获得的新的视频聚类集合中的视频数据具有高度的趋同性,进而实现了从海量的UGC视频中挖掘出优质的UGC视频,并将这些优质的UGC视频进行归类,提高了优质视频的挖掘效率,避免了人工挖掘优质视频的成本过高的问题。附图说明图1是本专利技术的一种视频数据的挖掘方法实施例的步骤流程图;图2是本专利技术的一种视频数据的挖掘装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术实施例的核心构思之一在于,本专利技术实施可以采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集,针对各个频道视频集,过滤掉不满足预设过滤条件的视频数据,对各个频道视频集中<本文档来自技高网...

【技术保护点】
一种视频数据的挖掘方法,其特征在于,包括:采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;获取各个所述视频聚类集合的视频集关键短语;针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数据,形成新的视频聚类集合;对各个所述新的视频聚类集合进行去重处理;计算各个所述新的视频聚类集合的平均相似度;保留平均相似度大于或等于预设阈值的新的视频聚类集合。

【技术特征摘要】
1.一种视频数据的挖掘方法,其特征在于,包括:
采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频
道视频集;
针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;
对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;
获取各个所述视频聚类集合的视频集关键短语;
针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数
据,形成新的视频聚类集合;
对各个所述新的视频聚类集合进行去重处理;
计算各个所述新的视频聚类集合的平均相似度;
保留平均相似度大于或等于预设阈值的新的视频聚类集合。
2.根据权利要求1所述的方法,其特征在于,所述获取各个所述视频
聚类集合的视频集关键短语的步骤包括:
获取各个所述视频聚类集合中视频数据的第一视频文本;
根据所述第一视频文本获取分词关键短语;
根据所述第一视频文本获取模板关键短语;
将所述分词关键短语和所述模板关键短语进行融合,获得视频集关键短
语。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一视频
文本获取分词关键短语的步骤包括:
对所述第一视频文本进行分词处理,获得视频文本分词;
统计各个所述视频文本分词在相应视频聚类集合中的出现频率;
提取出现频率高于第一预设频率值的视频文本分词作为关键分词;
将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分
词关键短语。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一
视频文本获取模板关键短语的步骤包括:
加载预置关键短语模板;
将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短
语;
统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率;
提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键
短语。
5.根据权利要求1所述的方法,其特征在于,所述频道分类器通过以
下方式训练:
确定各个频道下的视频样本数据;
获取各个频道下的视频样本数据的第二视频文本;
采用所述第二视频文本训练频道分类器。
6.根据权利要求1或2或3所述的方法,其特征在于,所述对各个所
述新的视频聚类集合...

【专利技术属性】
技术研发人员:乔奇
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1