本发明专利技术公开了一种视频页面剧目确定方法和装置。该方法包括:获取待解析的视频网页集合,视频网页集合包括一个或多个待解析的视频网页地址;依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;按照获取到的解析规则解析每个视频网页的剧目,得到解析结果;根据解析结果确定每个视频网页的剧目名称,通过本发明专利技术,达到了提高视频网站页面的剧目提取效率的效果。
【技术实现步骤摘要】
视频页面剧目确定方法和装置
本专利技术涉及视频剧目领域,具体而言,涉及一种视频页面剧目确定方法和装置。
技术介绍
从视频媒体页面中提取剧目可以帮助用户了解当前视频媒体页面中播放的视频媒体是什么,也可以将爬虫爬取到的内容进行更充分的标识。现有获取视频媒体页面剧目的方案是按视频媒体划分,对于每一个视频媒体提供一个专门的剧目提取处理器。一个提取处理器仅能处理一个媒体的页面,并且在媒体页面改版时,对应的提取处理器需要做相应的调整。如果出现了一个新的媒体,则也需要增加对应的提取处理器,需要增加很多重复工作,导致视频网站页面的剧目提取效率低下。针对相关技术中视频网站页面的剧目提取效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种视频页面剧目确定方法和装置,以解决视频网站页面的剧目提取效率低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种视频页面剧目确定方法,该方法包括:获取待解析的视频网页集合,所述视频网页集合包括一个或多个待解析的视频网页地址;依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;按照获取到的所述解析规则解析每个视频网页的剧目,得到解析结果;根据所述解析结果确定每个视频网页的剧目名称。进一步地,所述方法还包括:在获取不到视频网页对应的媒体的剧目解析规则的情况下,将视频网页的标题作为视频网页的剧目名称。进一步地,按照获取到的所述解析规则解析每个视频网页的剧目,得到解析结果包括:通过多个解析规则解析视频网页的剧目,得到对应于每个解析规则的剧目;计算对应于每个剧目的加权结果;根据所述加权结果确定加权值最高的剧目为视频网页的剧目名称。进一步地,通过多个解析规则解析视频网页的剧目,得到对应于每个解析规则的剧目包括以下至少之一:基于标签解析规则解析视频网页的标签,得到对应于标签解析规则的剧目;通过标题解析器基于标题解析规则解析视频网页的标题,得到对应于标题解析规则的剧目;通过关键词解析器基于关键词解析规则解析视频网页的关键词,得到对应于关键词解析规则的剧目。进一步地,根据所述加权结果确定加权值最高的剧目为视频网页的剧目名称包括:判断对应于标签解析规则的剧目、对应于标题解析规则的剧目、对应于关键词解析规则的剧目是否有相同的剧目;在有相同的剧目的情况下,将相同的剧目对应的权重相加,得到对应于每个剧目的权值;将权值最高的剧目作为视频网页的剧目名称。为了实现上述目的,根据本专利技术的另一方面,还提供了一种视频页面剧目确定装置,该装置包括:第一获取单元,用于获取待解析的视频网页集合,所述视频网页集合包括一个或多个待解析的视频网页地址;第二获取单元,用于依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则,解析单元,用于按照获取到的所述解析规则解析每个视频网页的剧目,得到解析结果;确定单元,用于根据所述解析结果确定每个视频网页的剧目名称。进一步地,所述装置还包括:处理单元,用于在获取不到视频网页对应的媒体的剧目解析规则的情况下,将视频网页的标题作为视频网页的剧目名称。进一步地,所述解析单元包括:解析模块,用于通过多个解析规则解析视频网页的剧目,得到对应于每个解析规则的剧目;计算模块,用于计算对应于每个剧目的加权结果;确定模块,用于根据所述加权结果确定加权值最高的剧目为视频网页的剧目名称。为了实现上述目的,根据本专利技术的另一方面,还提供了一种存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行本专利技术所述的视频页面剧目确定方法。为了实现上述目的,根据本专利技术的另一方面,还提供了一种处理器用于运行程序,其中,所述程序运行时执行本专利技术所述的视频页面剧目确定方法。本专利技术通过获取待解析的视频网页集合,视频网页集合包括一个或多个待解析的视频网页地址;依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;按照获取到的解析规则解析每个视频网页的剧目,得到解析结果;根据解析结果确定每个视频网页的剧目名称,解决了视频网站页面的剧目提取效率低的问题,进而达到了提高视频网站页面的剧目提取效率的效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术第一实施例的视频页面剧目确定方法的流程图;图2是根据本专利技术第二实施例的视频页面剧目确定方法的流程图;以及图3是根据本专利技术实施例的视频页面剧目确定装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供了一种视频页面剧目确定方法。图1是根据本专利技术第一实施例的视频页面剧目确定方法的流程图,如图1所示,该方法包括以下步骤:步骤S102:获取待解析的视频网页集合,视频网页集合包括一个或多个待解析的视频网页地址;步骤S104:依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;步骤S106:按照获取到的解析规则解析每个视频网页的剧目,得到解析结果;步骤S108:根据解析结果确定每个视频网页的剧目名称。该实施例采用获取待解析的视频网页集合,视频网页集合包括一个或多个待解析的视频网页地址;依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;按照获取到的解析规则解析每个视频网页的剧目,得到解析结果;根据解析结果确定每个视频网页的剧目名称,解决了视频网站页面的剧目提取效率低的问题,进而达到了提高视频网站页面的剧目提取效率的效果。在本专利技术实施例中,提取处理器可以存储多个视频网页对应的媒体的剧目解析规则,例如,可以存储:优酷的视频网页的剧目是视频播放窗口下的标签名称、爱奇艺的视频网页的剧目是视频播放页面的标题名称等等,通过预先从多个视频网站获取各自的剧目解析规则存储到本申请本文档来自技高网...
【技术保护点】
1.一种视频页面剧目确定方法,其特征在于,包括:/n获取待解析的视频网页集合,所述视频网页集合包括一个或多个待解析的视频网页地址;/n依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;/n按照获取到的所述解析规则解析每个视频网页的剧目,得到解析结果;/n根据所述解析结果确定每个视频网页的剧目名称。/n
【技术特征摘要】
1.一种视频页面剧目确定方法,其特征在于,包括:
获取待解析的视频网页集合,所述视频网页集合包括一个或多个待解析的视频网页地址;
依次获取待解析的视频网页集合中每个待解析的视频网页对应的媒体的剧目解析规则;
按照获取到的所述解析规则解析每个视频网页的剧目,得到解析结果;
根据所述解析结果确定每个视频网页的剧目名称。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在获取不到视频网页对应的媒体的剧目解析规则的情况下,将视频网页的标题作为视频网页的剧目名称。
3.根据权利要求1所述的方法,其特征在于,按照获取到的所述解析规则解析每个视频网页的剧目,得到解析结果包括:
通过多个解析规则解析视频网页的剧目,得到对应于每个解析规则的剧目;
计算对应于每个剧目的加权结果;
根据所述加权结果确定加权值最高的剧目为视频网页的剧目名称。
4.根据权利要求3所述的方法,其特征在于,通过多个解析规则解析视频网页的剧目,得到对应于每个解析规则的剧目包括以下至少之一:
基于标签解析规则解析视频网页的标签,得到对应于标签解析规则的剧目;
通过标题解析器基于标题解析规则解析视频网页的标题,得到对应于标题解析规则的剧目;
通过关键词解析器基于关键词解析规则解析视频网页的关键词,得到对应于关键词解析规则的剧目。
5.根据权利要求4所述的方法,其特征在于,根据所述加权结果确定加权值最高的剧目为视频网页的剧目名称包括:
判断对应于标签解析规则的剧目、对应于标题解析规则的剧目、对应于...
【专利技术属性】
技术研发人员:陈国兴,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。