【技术实现步骤摘要】
本专利技术涉及数据处理
,特别是涉及一种视频数据的挖掘方法和一种视频数据的挖掘装置。
技术介绍
随着网络技术的不断发展和个性化需求的不断提高,视频网站中用户的参与度得到极大提升,用户生成内容(UserGeneratedContent,UGC)呈爆炸式增长。通常,视频网站上的UGC视频均具有数量庞大、复杂多样、极其分散的特点,UGC视频中具有大量的优质视频,同时也混杂着大量劣质视频,如何挖掘出散落在海量UGC视频中满足长尾需求(Long-tail)的、优质的视频成为一种需求。目前,尽管某些网站允许用户建立个人专辑,但由于用户自身的随意性和资源的不完整性,大部分专辑的质量不高、视频内容混乱,导致这些专辑都缺乏实际的可用性,同时,由于UGC视频的数量过于庞大,通过人工的方式来挖掘优质视频也变的不切实际,成本过高。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频数据的挖掘方法和相应的一种视频数据的挖掘装置。为了解决上述问题,本专利技术实施例公开了一种视频数据的挖掘方法,包括:采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;获取各个所述视频聚类集合的视频集关键短语 ...
【技术保护点】
一种视频数据的挖掘方法,其特征在于,包括:采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;获取各个所述视频聚类集合的视频集关键短语;针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数据,形成新的视频聚类集合;对各个所述新的视频聚类集合进行去重处理;计算各个所述新的视频聚类集合的平均相似度;保留平均相似度大于或等于预设阈值的新的视频聚类集合。
【技术特征摘要】
1.一种视频数据的挖掘方法,其特征在于,包括:
采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频
道视频集;
针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;
对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;
获取各个所述视频聚类集合的视频集关键短语;
针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数
据,形成新的视频聚类集合;
对各个所述新的视频聚类集合进行去重处理;
计算各个所述新的视频聚类集合的平均相似度;
保留平均相似度大于或等于预设阈值的新的视频聚类集合。
2.根据权利要求1所述的方法,其特征在于,所述获取各个所述视频
聚类集合的视频集关键短语的步骤包括:
获取各个所述视频聚类集合中视频数据的第一视频文本;
根据所述第一视频文本获取分词关键短语;
根据所述第一视频文本获取模板关键短语;
将所述分词关键短语和所述模板关键短语进行融合,获得视频集关键短
语。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一视频
文本获取分词关键短语的步骤包括:
对所述第一视频文本进行分词处理,获得视频文本分词;
统计各个所述视频文本分词在相应视频聚类集合中的出现频率;
提取出现频率高于第一预设频率值的视频文本分词作为关键分词;
将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分
词关键短语。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一
视频文本获取模板关键短语的步骤包括:
加载预置关键短语模板;
将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短
语;
统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率;
提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键
短语。
5.根据权利要求1所述的方法,其特征在于,所述频道分类器通过以
下方式训练:
确定各个频道下的视频样本数据;
获取各个频道下的视频样本数据的第二视频文本;
采用所述第二视频文本训练频道分类器。
6.根据权利要求1或2或3所述的方法,其特征在于,所述对各个所
述新的视频聚类集合...
【专利技术属性】
技术研发人员:乔奇,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。