视频标签生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:17912627 阅读:23 留言:0更新日期:2018-05-10 18:24
本发明专利技术提出一种视频标签生成方法、装置、计算机设备和存储介质,其中,方法包括:根据视频的标题提取得到主题词,以及确定主题词所属的主题类别词,根据视频的标题进行页面搜索,得到多个匹配页面,从每一个匹配页面的内容中提取关键词,根据主题词,对关键词进行筛选,以保留与主题词不重复的关键词,根据主题词、主题类别词和保留的关键词,生成视频的标签。通过对视频标签进行页面检索,获取匹配页面,从匹配页面中提取关键词,并对关键词筛选,增加了视频资源的文本信息,丰富了生成的视频标签的内容和种类,解决了现有技术中,视频资源的文本信息较少,致使生成的视频标签种类较少,准确性较低的问题。

【技术实现步骤摘要】
视频标签生成方法、装置、计算机设备和存储介质
本申请涉及视频处理
,尤其涉及一种视频标签生成方法、装置、计算机设备和存储介质。
技术介绍
随着网络多媒体技术的快速发展,互联网上的视频等多媒体内容的数量正在以指数级的速度迅猛增长。视频资源通过标签标注视频内容核心点以及用户关注的核心内容,随着视频资源的检索需求越来愈大,丰富视频标签的内容,提高视频标签的准确度显的尤为重要。相关技术中,对于视频内容的标签标注,一种方法是通过固有的标签体系进行标注;另一种方法是利用视频资源的内容生成标签。第一种方法固有的标签数量有限,无法覆盖全网视频标签的需求。第二种方法,因视频资源携带的文本内容有限,可生成的标签的内容和类别有限,使得生成的视频标签数量较少,准确度较低的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种视频标签生成方法,以实现通过对视频标签进行页面检索,获取匹配页面,从匹配页面中提取关键词,并对关键词筛选,使得筛选出的关键词增加了视频资源的文本信息,丰富了生成的视频标签的内容和种类,解决了现有技术中,视频资源的文本信息较少,致使生成的视频标签种类较少,准确性较低的问题。本专利技术的第二个目的在于提出一种视频标签生成装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种视频标签生成方法,包括:根据视频的标题提取得到主题词,以及确定所述主题词所属的主题类别词;根据视频的标题进行页面搜索,得到多个匹配页面;从每一个匹配页面的内容中提取关键词;根据所述主题词,对所述关键词进行筛选,以保留与所述主题词不重复的关键词;根据所述主题词、所述主题类别词和保留的关键词,生成所述视频的标签。本专利技术实施例的一种视频标签生成方法中,根据视频的标题提取得到主题词,以及确定主题词所属的主题类别词,根据视频的标题进行页面搜索,得到多个匹配页面,从每一个匹配页面的内容中提取关键词,根据主题词,对关键词进行筛选,以保留与主题词不重复的关键词,根据主题词、主题类别词和保留的关键词,生成视频的标签。通过对视频标签进行页面检索,获取匹配页面,从匹配页面中提取关键词,并对关键词筛选,增加了视频资源的文本信息,丰富了生成的视频标签的内容和种类,解决了现有技术中,视频资源的文本信息较少,致使生成的视频标签种类较少,准确性较低的问题。为达上述目的,本专利技术第二方面实施例提出了一种视频标签生成装置,包括:主题提取模块,用于根据视频的标题提取得到主题词,以及确定所述主题词所属的主题类别词;搜索模块,用于根据视频的标题进行页面搜索,得到多个匹配页面;关键词提取模块,用于从每一个匹配页面的内容中提取关键词;筛选模块,用于根据所述主题词,对所述关键词进行筛选,以保留与所述主题词不重复的关键词;生成模块,用于根据所述主题词、所述主题类别词和保留的关键词,生成所述视频的标签。本专利技术实施例的一种视频标签生成装置中,主题提取模块用于根据视频的标题提取得到主题词,以及确定主题词所属的主题类别词,搜索模块用于根据视频的标题进行页面搜索,得到多个匹配页面,关键词提取模块用于从每一个匹配页面的内容中提取关键词,筛选模块用于根据主题词,对关键词进行筛选,以保留与主题词不重复的关键词,生成模块用于根据主题词、主题类别词和保留的关键词,生成视频的标签。通过对视频标签进行页面检索,获取匹配页面,从匹配页面中提取关键词,并对关键词筛选,增加了视频资源的文本信息,丰富了生成的视频标签的内容和种类,解决了现有技术中,视频资源的文本信息较少,致使生成的视频标签种类较少,准确性较低的问题。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的视频标签生成方法。为达上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当该程序由处理器执行时,实现如第一方面所述的视频标签生成方法。为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面所述的视频标签生成方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种视频标签生成方法的流程示意图;图2为本专利技术实施例所提供的另一种视频标签生成方法的流程示意图;图3为本专利技术实施例提供的多个匹配页面的示意图;图4为本专利技术实施例提供的一种视频标签生成装置的结构示意图;图5为本专利技术实施例所提供的另一种视频标签生成装置的结构示意图;以及图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的视频标签生成方法、装置、计算机设备和存储介质。图1为本专利技术实施例所提供的一种视频标签生成方法的流程示意图。如图1所示,该方法包括:步骤101,根据视频的标题提取得到主题词,以及确定主题词所属的主题类别词。具体地,获取视频的标题,去除标题中的助词,介词、等常用词,以及去除动词,留取名词,并进行语义解析提取得到对应的重要主题词,并根据该主题词确定所属的主体类别词,其中,作为一种可能的实现方式,主体类别词是通过预先确定的分类词库确定的,在分类词库中,将词汇划分为多个类别,每个类别对应至少一个主题类别词,一个主题类别词,对应至少一个主题词,根据提取到的主题词查找到所属的主体类别词。例如,类别为人物,人物类别对应的主题类别词至少包括:明星、作家等,而提取到的主题词:陆毅,所属的主题类别词则为明星。步骤102,根据视频的标题进行页面搜索,得到多个匹配页面。具体地,将提取得到的视频的标题作为搜索词,通过搜索引擎进行页面搜索,得到多个匹配页面,对搜索得到的多个页面进行筛选,保留页面的标题或摘要与视频的标题之间的相关度高于第一阈值的匹配页面。对于从搜索得到的页面中确定匹配页面的确定方法,作为一种可能的实现方式,可将搜索引擎反馈回的搜索结果中排序前N个的页面作为匹配页面,N为大于1的正整数。作为另一种可能的实现方式,可将页面的标题或摘要和视频的标题生成相同数量的关键词,计算视频标题中的关键词的词频,以及页面的标题或摘要中关键词的词频,并分别生成对应的词频向量,然后采用欧式距离,或者余弦距离计算得到两个向量之间的相似度,相似度的值越大,则该页面的标题或摘要与该视频的标题相似度越高,将相似度值大于预设的第一阈值的页面,作为匹配页面。步骤103,从每一个匹配页面的内容中提取关键词。具体地,从搜索引擎获取每一个匹配页面的标题和摘要,对标题和摘要本文档来自技高网...
视频标签生成方法、装置、计算机设备和存储介质

【技术保护点】
一种视频标签生成方法,其特征在于,包括以下步骤:根据视频的标题提取得到主题词,以及确定所述主题词所属的主题类别词;根据视频的标题进行页面搜索,得到多个匹配页面;从每一个匹配页面的内容中提取关键词;根据所述主题词,对所述关键词进行筛选,以保留与所述主题词不重复的关键词;根据所述主题词、所述主题类别词和保留的关键词,生成所述视频的标签。

【技术特征摘要】
1.一种视频标签生成方法,其特征在于,包括以下步骤:根据视频的标题提取得到主题词,以及确定所述主题词所属的主题类别词;根据视频的标题进行页面搜索,得到多个匹配页面;从每一个匹配页面的内容中提取关键词;根据所述主题词,对所述关键词进行筛选,以保留与所述主题词不重复的关键词;根据所述主题词、所述主题类别词和保留的关键词,生成所述视频的标签。2.根据权利要求1所述的视频标签生成方法,其特征在于,所述从每一个匹配页面的内容中提取关键词,包括:从搜索引擎获取每一个匹配页面的标题和摘要;对所述标题和摘要提取关键词,所述关键词包括实体词、网络热词和网络新词中的一个或多个组合。3.根据权利要求1所述的视频标签生成方法,其特征在于,所述根据视频的标题进行页面搜索,得到多个匹配页面,包括:将所述视频的标题作为搜索词,采用搜索引擎进行页面搜索;对所述搜索引擎搜索得到的多个页面进行筛选,保留页面的标题或摘要与所述视频的标题之间的相关度高于第一阈值的匹配页面。4.根据权利要求3所述的视频标签生成方法,其特征在于,所述从每一个匹配页面的内容中提取关键词之前,还包括:确定所述匹配页面在所述搜索引擎搜索得到的多个页面中的占比高于第二阈值。5.根据权利要求3所述的视频标签生成方法,其特征在于,所述从每一个匹配页面的内容中提取关键词之后,还包括:根据所述匹配页面的数量,确定提取到的各关键词的权重和;所述权重和与所述匹配页面的数量具有正向关系;根据确定的权重和,以及各匹配页面的标题或摘要与所述视频的标题之间的相关度,确定从各匹配页面提取到的关键词的权重;各关键词的权重与所述相关度具有正向关系...

【专利技术属性】
技术研发人员:薛成龙史亚冰梁海金张扬
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1