网页数据采集业务的质量检测方法及相关设备技术

技术编号:34686988 阅读:11 留言:0更新日期:2022-08-27 16:20
本申请提供一种网页数据采集业务的质量检测方法及相关设备。其中所述方法包括:首先初始化采集业务对应的网页的顺序参数,之后采集网页发生的每一次非结构数据的变化,标记采集时间和更新顺序参数,并将采集到的数据和更新的参数进行存储,最后在采集结束之后通过比较采集的数据的数量和顺序参数的数值,得到网页数据采集业务的质量检测结果。通过将采集的数据序列化并加入顺序参数,简化了数据分析的过程,有效提升了质检的效率。有效提升了质检的效率。有效提升了质检的效率。

【技术实现步骤摘要】
网页数据采集业务的质量检测方法及相关设备


[0001]本申请涉及数据处理
,尤其涉及一种网页数据采集业务的质量检测方法及相关设备。

技术介绍

[0002]在保险业务中,通过回溯技术实现互联网业务过程的还原、存证可以真实记录、还原用户与商户之间的行为,一旦产生交易纠纷,可据此判定各自应该承担的责任。可回溯是针对保险机构线上业务,要求保险机构通过销售页面管理和销售过程记录等方式,对在自营网络平台上销售保险产品的交易行为进行记录和保存,使其可供查验。在可回溯的过程中,对于采集到的网页数据的有效性需要进行质量检测。
[0003]基于此,需要一种网页数据采集业务的质量检测方法以满足可回溯任务的需求。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种网页数据采集业务的质量检测方法及相关设备。
[0005]基于上述目的,本申请提供了网页数据采集业务的质量检测方法,包括:
[0006]初始化采集业务对应的网页的顺序参数,所述顺序参数用于表示所述网页多次发生非结构化数据改变的顺序;
[0007]对于每一次所述网页的非结构化数据发生改变,采集改变后的所述非结构化数据并为改变后的所述非结构化数据标记采集时间,得到该次非结构化数据发生改变对应的目标数据;更新所述目标数据对应的顺序参数;根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库存储;
[0008]响应于确定所述采集业务结束,从所述数据库获取所述目标数据的数量与最后更新的顺序参数,将所述目标数据的数量与最后更新的顺序参数进行比较,得到所述网页数据采集业务的质量检测结果。
[0009]进一步的,所述采集业务结束之前,包括:
[0010]响应于确定将所述目标数据和所述目标数据对应的顺序参数发送给所述数据库失败,根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库进行存储;
[0011]响应于确定发送失败的次数大于预设的阈值,在所述采集业务结束后,根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库进行存储。
[0012]进一步的,所述将所述目标数据的数量与最后更新的顺序参数进行比较,得到所述网页数据采集业务的质量检测结果,包括:
[0013]响应于确定所述目标数据的数量与最后更新的顺序参数一致,所述网页数据采集业务的质量检测结果为网页数据采集无误。
[0014]进一步的,所述方法还包括:
[0015]响应于确定所述目标数据的数量与最后更新的顺序参数不一致,根据所述顺序参数确定导致所述目标数据的数量与最后更新的顺序参数不一致的目标数据,所述网页数据采集业务的质量检测结果为该目标数据已丢失。
[0016]进一步的,所述顺序参数包括结构顺序参数和操作顺序参数,所述结构顺序参数用于表示所述网页的页面结构多次发生非结构化数据改变的顺序,所述操作顺序参数表示所述网页的用户操作轨迹多次发生非结构化数据改变的顺序。
[0017]进一步的,所述根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库进行存储,包括:
[0018]将所述目标数据和所述目标数据对应的顺序参数发送给所述数据库;
[0019]根据所述目标数据对应的顺序参数对全部所述目标数据进行排序,得到全部所述目标数据的排序结果;
[0020]根据所述排序结果对所述目标数据和所述目标数据对应的顺序参数进行存储。
[0021]进一步的,所述目标数据和所述目标数据对应的顺序参数以txt格式进行存储。
[0022]基于同一构思,本申请还提供了一种网页数据采集业务的质量检测装置,其特征在于,包括:
[0023]初始化模块,被配置为初始化采集业务对应的网页的顺序参数,所述顺序参数用于表示所述网页多次发生非结构化数据改变的顺序;
[0024]采集模块,被配置为对于每一次所述网页的非结构化数据发生改变,采集改变后的所述非结构化数据并为改变后的所述结构化数据标记采集时间,得到该次非结构化数据发生改变对应的目标数据;更新所述目标数据对应的顺序参数;根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库存储;
[0025]检测模块,被配置为响应于确定所述采集业务结束,从所述数据库获取所述目标数据的数量与最后更新的顺序参数,将所述目标数据的数量与最后更新的顺序参数进行比较,得到所述网页数据采集业务的质量检测结果。
[0026]基于同一构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任一项所述的方法。
[0027]基于同一构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机实现如上任一项所述的方法。
[0028]从上面所述可以看出,本申请提供的网页数据采集业务的质量检测方法,首先初始化采集业务对应的网页的顺序参数,之后采集网页发生的每一次非结构数据的变化,标记采集时间和更新顺序参数,并将采集到的数据和更新的参数进行存储,最后在采集结束之后通过比较采集的数据的数量和顺序参数的数值,得到网页数据采集业务的质量检测结果。通过将采集的数据序列化并加入顺序参数,简化了数据分析的过程,有效提升了质检的效率。
附图说明
[0029]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1为本申请实施例的网页数据采集业务的质量检测方法流程图;
[0031]图2为本申请实施例的网页数据采集业务的质量检测方法实施场景示意图;
[0032]图3为本申请实施例的网页数据采集业务的质量检测装置结构示意图;
[0033]图4为本申请实施例的电子设备结构示意图。
具体实施方式
[0034]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0035]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页数据采集业务的质量检测方法,其特征在于,包括:初始化采集业务对应的网页的顺序参数,所述顺序参数用于表示所述网页多次发生非结构化数据改变的顺序;对于每一次所述网页的非结构化数据发生改变,采集改变后的所述非结构化数据并为改变后的所述非结构化数据标记采集时间,得到该次非结构化数据发生改变对应的目标数据;更新所述目标数据对应的顺序参数;根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库存储;响应于确定所述采集业务结束,从所述数据库获取所述目标数据的数量与最后更新的顺序参数,将所述目标数据的数量与最后更新的顺序参数进行比较,得到所述网页数据采集业务的质量检测结果。2.根据权利要求1所述的方法,其特征在于,所述采集业务结束之前,包括:响应于确定将所述目标数据和所述目标数据对应的顺序参数发送给所述数据库失败,根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库进行存储;响应于确定发送失败的次数大于预设的阈值,在所述采集业务结束后,根据所述目标数据对应的顺序参数,将所述目标数据和所述目标数据对应的顺序参数发送给数据库进行存储。3.根据权利要求1所述的方法,其特征在于,所述将所述目标数据的数量与最后更新的顺序参数进行比较,得到所述网页数据采集业务的质量检测结果,包括:响应于确定所述目标数据的数量与最后更新的顺序参数一致,所述网页数据采集业务的质量检测结果为网页数据采集无误。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:响应于确定所述目标数据的数量与最后更新的顺序参数不一致,根据所述顺序参数确定导致所述目标数据的数量与最后更新的顺序参数不一致的目标数据,所述网页数据采集业务的质量检测结果为该目标数据已丢失。5.根据权利要求1所述的方法,其特征在于,所述顺序参数包括结构顺序参数和操作顺序参数,所述结构顺序参数用于表示所...

【专利技术属性】
技术研发人员:郑巍谭珂吴昊王鹏宇姚志楠宋朝阳尹伊人张旭
申请(专利权)人:中国人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1