一种网络短视频信息收集方法及装置制造方法及图纸

技术编号:34516912 阅读:16 留言:0更新日期:2022-08-13 21:04
本发明专利技术提供的一种网络短视频信息收集方法及装置,通过根据节点信息判断目标节点是否为全局唯一节点;如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;将全局唯一节点至目标节点的节点信息按照层级组成最终路径。本发明专利技术通过精炼路径的方式,降低网页结构改变对目标节点的影响,从而按照最终路径获取目标信息对应的目标数据进行存储,降低获取目标数据的出错概率,且可以降低网络结构改变为目标数据获取的影响概率。降低网络结构改变为目标数据获取的影响概率。降低网络结构改变为目标数据获取的影响概率。

【技术实现步骤摘要】
一种网络短视频信息收集方法及装置


[0001]本专利技术属于视频处理
,涉及一种网络短视频信息收集方法及装置。

技术介绍

[0002]随着互联网的普及,短视频已随处可见,但数量众多的短视频让人眼花缭乱,而对网络短视频进行有效的归类整理是网络开发者经常需要研究的问题。对短视频进行归类整理,可以使用户从杂乱无章的信息中解脱出来,实现精准匹配,从而向用户推送感兴趣的视频而剔除无关不感兴趣的视频。同时短视频还需按照法规进行审核,以剔除不合法规的有害视频。而对网络短视频进行有效归类之前需要进行短视频收集。
[0003]短视频可以通过人工在短视频网站下载视频,复制视频的标题、描述、观看数、点赞数、转发数、评论数等视频信息实现收集目的,当然也可以使用自动工具进行获取的。人工方式收集不但效率低下,且成本较高。而自动工具收集需要提前设定好视频的具体信息,如此得到的视频无法精确到指定字段,需要人工再次提取。
[0004]参考图1所示,现有技术中通过Xpath对网络视频进行定位,以得到数据。在图1中的树型结构,沿着箭头方向有多条路线,而Xpath即使用路径表达式来选取HTML文档中的节点或者节点集,从根节点出发,比如目标数据在article节点处,则沿着/html/body/main/article这条路径找到该数据。然而路径表达式和常规的电脑文件系统中看到的表达式非常相似。存在的问题一旦当网页结构发生改变后,比如网页在main节点和article节点间新增加了一个div节点,则新的路径变成了/html/body/main/div/article,如此无法定位到具体数据,传统的xpath路径定位方法时效性和通用性较低。

技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供一种网络短视频信息收集方法及装置。本专利技术要解决的技术问题通过以下技术方案实现:
[0006]第一方面,本专利技术提供的一种网络短视频信息收集方法包括:
[0007]以脚本方式获取网络短视频的HTML网页文档以及获取待查找的目标信息;
[0008]将网页文档转化为DOM树结构;
[0009]使用xpath定位方法,在DOM树结构中定位包含目标信息的目标节点,得到根节点到目标节点的初始路径;
[0010]其中,初始路径由节点名称按照根节点至目标节点的层级依次组成;
[0011]根据节点信息,判断目标节点是否为全局唯一节点;
[0012]如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;
[0013]如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;
[0014]将全局唯一节点至目标节点的节点信息按照层级组成最终路径;
[0015]按照最终路径获取目标信息对应的目标数据进行存储。
[0016]可选的,根据节点信息,判断目标节点是否为全局唯一节点包括:
[0017]判断目标节点的节点信息是否与其他节点是否存在部分或者全部相同;
[0018]如果存在部分或全部相同,则目标节点不为全局唯一节点;
[0019]如果目标节点的节点信息与其他节点的完全不同,则目标节点为全局唯一节点。
[0020]可选的,如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点包括:
[0021]如果目标节点不是全局唯一节点,则在初始路径上确定目标节点的父节点是否为全局唯一节点;
[0022]如果父节点不是全局唯一节点,则重复父节点的父节点是否为全局唯一节点的步骤,直至在初始路径上找到全局唯一节点。
[0023]可选的,在确定全局唯一节点之后,网络段视频收集方法还包括:
[0024]判断是否存在亲兄弟节点与目标节点重复,使得目标节点不为全局唯一节点。
[0025]可选的,将全局唯一节点至目标节点的节点信息按照层级组成最终路径包括:
[0026]当存在亲兄弟节点与目标节点重复时,则确定目标节点在重复的亲兄弟节点中的顺序;
[0027]将全局唯一节点至目标节点的节点信息按照节点信息组成精简路径;
[0028]将精简路径最后添加目标节点在重复的亲兄弟节点中的顺序。
[0029]其中,节点信息包括:节点名称、节点属性名称以及节点属性值。
[0030]可选的,形成表示目标节点的节点信息的最终路径包括:
[0031]将目标节点的节点名称、节点属性名称以及节点属性值按照顺序依次组成目标节点的最终路径。
[0032]可选的,按照最终路径获取目标信息对应的目标数据进行存储包括:
[0033]按照最终路径获取目标信息对应的目标数据;
[0034]将目标数据中的音视频数据存储至对象存储服务器中;
[0035]将目标数据中的字符数据存储至MySQL数据库中;
[0036]根据目标数据对网络短视频创作者的发表信息进行统计;
[0037]建立多个字段下表示多个网络短视频创作者发表信息以及对应的统计情况的数据表。
[0038]可选的,在按照最终路径获取目标信息对应的目标数据进行存储之后,网络短视频信息收集方法还包括:
[0039]按照数据表中各个网络短视频创作者,每个字段下发表信息以及发表信息的统计情况,对网络短视频创造者创造的短视频进行评分;
[0040]按照频分高低,对所有短视频进行排序。
[0041]第二方面,本专利技术提供的一种网络短视频信息收集装置包括:
[0042]获取模块,用于以脚本方式获取网络短视频的HTML网页文档以及获取待查找的目标信息;
[0043]转化模块,用于将网页文档转化为DOM树结构;
[0044]初始定位模块,用于使用xpath定位方法,在DOM树结构中定位包含目标信息的目标节点,得到根节点到目标节点的初始路径;
[0045]其中,初始路径由节点名称按照根节点至目标节点的层级依次组成;
[0046]判断模块,用于根据节点信息,判断目标节点是否为全局唯一节点;
[0047]路径精简模块,用于如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;
[0048]确定模块,用于如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;
[0049]组成模块,用于将全局唯一节点至目标节点的节点信息按照层级组成最终路径;
[0050]存储模块,用于按照最终路径获取目标信息对应的目标数据进行存储。
[0051]本专利技术提供的一种网络短视频信息收集方法及装置,通过根据节点信息判断目标节点是否为全局唯一节点;如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;将全局唯一节点至目标节点的节点信息按照层级组成最终路径。本专利技术通过精炼路径的方式,降低网页结构改变对目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络短视频信息收集方法,其特征在于,包括:以脚本方式获取网络短视频的HTML网页文档以及获取待查找的目标信息;将所述网页文档转化为DOM树结构;使用xpath定位方法,在所述DOM树结构中定位包含所述目标信息的目标节点,得到根节点到目标节点的初始路径;其中,所述初始路径由节点名称按照根节点至目标节点的层级依次组成;根据节点信息,判断所述目标节点是否为全局唯一节点;如果所述目标节点是全局唯一节点,则将所述初始路径进行精简,以形成表示目标节点的节点信息的最终路径;如果所述目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;将所述全局唯一节点至目标节点的节点信息按照层级组成最终路径;按照所述最终路径获取所述目标信息对应的目标数据进行存储。2.根据权利要求1所述的网络短视频信息收集方法,其特征在于,所述根据节点信息,判断目标节点是否为全局唯一节点包括:判断目标节点的节点信息是否与其他节点是否存在部分或者全部相同;如果存在部分或全部相同,则所述目标节点不为全局唯一节点;如果目标节点的节点信息与其他节点的完全不同,则目标节点为全局唯一节点。3.根据权利要求1所述的网络短视频信息收集方法,其特征在于,所述如果所述目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点包括:如果所述目标节点不是全局唯一节点,则在初始路径上确定所述目标节点的父节点是否为全局唯一节点;如果所述父节点不是全局唯一节点,则重复父节点的父节点是否为全局唯一节点的步骤,直至在所述初始路径上找到全局唯一节点。4.根据权利要求3所述的网络短视频信息收集方法,其特征在于,在确定全局唯一节点之后,所述网络段视频收集方法还包括:判断是否存在亲兄弟节点与所述目标节点重复,使得所述目标节点不为全局唯一节点。5.根据权利要求4所述的网络短视频信息收集方法,其特征在于,将所述全局唯一节点至目标节点的节点信息按照层级组成最终路径包括:当存在亲兄弟节点与所述目标节点重复时,则确定目标节点在重复的亲兄弟节点中的顺序;将全局唯一节点至目标节点的节点信息按照节点信息组成精简路径;将所述精简路径最后添加目标节点在重复的亲兄弟节点中的顺序。6.根据权利要...

【专利技术属性】
技术研发人员:刘怀亮熊帅杨斌赵舰波
申请(专利权)人:乐知未来科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1