本发明专利技术一种网络视频话题检测的方法及系统,方法包括:步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件;步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。本发明专利技术能够从网络中检测出视频话题。
【技术实现步骤摘要】
本专利技术涉及一种话题检测的方法,特别是涉及网络视频话题检测的方法及其系 统。
技术介绍
随着网络带宽的增长和Web 2. 0技术的应用,网络视频数量和用户规模大规模增 长,网络视频已经成为人们传递信息的一种重要媒体。但是由于目前的视频检索技术还不 能满足实际需求,有超过50%的网络用户通过推荐方式获取感兴趣的视频。因此,如何对大 规模的网络视频数据进行有效组织,以进行查询,为需要解决的问题。将内容相关的视频聚合在一起,以话题的形式进行组织,并将热点的话题推荐给 用户是一种有效的视频管理方式。目前,主流的视频网站都设立了一个“专题”或“热点话 题”的栏目,通过编辑的方式将视频组织成话题推荐给用户,方便用户系统地浏览与该话题 相关的所有信息。但是这种编辑的方式费时费力。话题是指语义内容上具有连续性的一系列相关的事件(如布什在伊拉克被鞋 扔),表现在图上就是一条轨迹(如12.5日发生了这一事件,12. 6日扔鞋的记者被逮捕, 12.7日美国回应此事……)。严格来说,话题和轨迹时一一对应的,在纯文本领域,有一个话题检测和跟踪的方向(Topic Detection andTracking, TDT),该领域的技术人员研究挖掘新闻文档中的话题的问题,并取得了一些成果。如Google News就是文本话题发现技术的一个应用实例。但由于网络视频的文本信息都是由用户上传 的,根据用户文化背景和习惯的不同,质量差异很大。文本稀疏,且存在很多噪声。因此,文 本话题发现的方法很难应用到网络视频中。更进一步,如何对检测到的视频话题进行有效展示,以提供给用户进行浏览为需 要解决的进一步的问题。现有技术中的研究主要侧重于检测结果是否准确,在展示方面只 是把属于同一个话题的视频顺序排列起来。近年来有研究人员以树的形式,将话题的子事 件在时间维度上的连接关系表示出来。但是这种结构只展示了话题发展的一个维度,忽略 了它在热点程度这个维度的变化。
技术实现思路
为了解决上述问题,本专利技术提供了网络视频话题检测的方法及系统,能够从网络 中检测出视频话题。本专利技术公开了一种网络视频话题检测的方法,包括步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提 取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒 排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设 数量的显著词的视频为属于所述事件的视频;5步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事 件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题 的轨迹,进而完成话题的检测。所述步骤1前还包括,设置历史时间窗口,以历史时间窗口内的时间单元上传的 视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。步骤3和步骤4之间还包括步骤31,对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口 新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和 边。步骤3和步骤4之间还包括步骤41,对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点 相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。所述步骤5后还包括步骤51,对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个 事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;步骤52,根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点 话题,并分别推荐展示。所述步骤3进一步为,步骤61,属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向 量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含 n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向 量的每一维的权重为所述维对应视频的被观看次数;步骤62,计算事件的视频向量的平均值,以所述平均值为所述事件的权重;步骤63,设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时 间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;步骤64,以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应 事件的相似度大于预设值的点连接生成边。所述步骤5进一步为,步骤71,对于每个连通子图,采用如下公式度量连通子图上每条路径的能量; 能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量 值,a为一个能量转化因子,0为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight (T)是路径T的能量值,£是指属于该路径的一个事件,Sim表示相似度;步骤72,根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的 轨迹,进而完成话题检测。所述步骤51还包括,步骤81,轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件 点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。本专利技术还公开了一种网络视频话题检测的系统,包括显著词提取模块,用于将视频的标签词表示为时间轴上的词频变化轨迹,根据该 词频变化轨迹提取每个时间单元内的显著词;事件检测模块,用于将每个时间单元内的显著词表示为所述时间单元内上传的所 有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所 述类中预设数量的显著词的视频为属于所述事件的视频;轨迹图生成模块,用于计算各个事件之间相似度,建立事件之间的连接,形成事件 发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;轨迹图分割模块,用于将事件发展轨迹图分割为多个连通子图;结果生产模块,按预设标准从各个连通子图中查找最优路径,每条最优路径对应 一个话题的轨迹,进而完成话题的检测。所述系统还包括历史时间窗口设置模块;在启动显著词提取模块前启动历史时间窗口设置模块,历史时间窗口设置模块,用于设置历史时间窗口,以历史时间窗口内的时间单元 上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。轨迹图生成模块还用于对事件发展轨迹图进行动态更新,所述动态更新包括增加 历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事 件对应的点和边。轨迹图生成模块还用于对于发展轨迹图中相邻时间单元的事件对应的两个点,如 果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述 两点。所述系统还包括展示模块,展示模块,用于对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹 中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由 事件权重表示;并根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点 话题,并分别推荐展示。所述轨迹图生成模块进一步用于将属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每 一维的权重为包含所述维对应显著词的视频个本文档来自技高网...
【技术保护点】
一种网络视频话题检测的方法,其特征在于,包括:步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
【技术特征摘要】
【专利技术属性】
技术研发人员:曹娟,张勇东,李锦涛,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。