System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种数据采集方法、装置、设备及存储介质。
技术介绍
1、互联网的快速发展及大数据时代的来临,越来越多的数据在网络上产生,从海量数据中收集数据的技术变得越来越重要。在数据采集的相关技术中,比如,通过数据采集工具利用横向或纵向方法不断遍历、采集页面的数据并进行数据存储。但是存在的问题是,通过遍历页面进行数据采集,工作量大,数据采集效率不高,且采集到的数据的存储成本也较高,因此,如何高效的进行数据采集成为了亟待解决的技术问题。
2、上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本专利技术的主要目的在于提供了一种数据采集方法、装置、设备及存储介质,旨在解决现有技术数据采集时效率不高的技术问题。
2、为实现上述目的,本专利技术提供了一种数据采集方法,所述方法包括以下步骤:
3、在当前访问网页为预设网页时,生成所述当前访问网页的网页标识;
4、采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息;
5、在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果。
6、可选地,所述采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息的步骤,包括:
7、采集所述当前访问网页的网页信息;
8、获取所述当前访问网页的数据采集策略;
>9、根据所述数据采集策略采集用户基于所述当前访问网页产生的用户操作信息。
10、可选地,所述根据所述数据采集策略采集用户基于所述当前访问网页产生的用户操作信息的步骤,包括:
11、在所述数据采集策略为项目采集时,监听用户基于所述当前访问网页产生的数据交互行为;
12、根据监听到的所述数据交互行为生成用户操作信息。
13、可选地,所述预设条件包括关闭网页和/或刷新网页;
14、所述在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果的步骤,包括:
15、在检测到所述当前访问网页关闭或刷新时,停止网页数据采集,并根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果。
16、可选地,所述在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果的步骤之后,还包括:
17、获取预设数据分析策略;
18、在所述预设数据分析策略为定时分析时,获取当前数据采集时长;
19、在所述当前数据采集时长等于预设定时分析时长时,对所述网页数据采集结果进行动态分析。
20、可选地,所述动态分析包括网页性能分析;
21、所述对所述网页数据采集结果进行动态分析的步骤,包括:
22、根据所述网页数据采集结果确定所述当前访问网页的白屏时长和各个请求的响应时长;
23、根据所述白屏时长和所述响应时长生成所述当前访问网页的网页性能分析结果。
24、可选地,所述动态分析还包括用户行为分析;
25、所述对所述网页数据采集结果进行动态分析的步骤,包括:
26、根据所述网页数据采集结果确定用户流向、用户浏览时长、用户访问率;
27、根据所述用户流向、所述用户浏览时长和用户访问率生成所述当前访问网页的用户行为分析结果。
28、可选地,所述获取预设数据分析策略的步骤之后,还包括:
29、在所述预设数据分析策略为数据阈值分析策略时,获取数据采集结果中的数据数量;
30、在所述数据数量大于或等于预设数据分析阈值时,对所述网页数据采集结果进行动态分析。
31、可选地,所述在当前访问网页为预设网页时,生成所述当前访问网页的网页标识的步骤,包括:
32、在当前访问网页为预设网页时,获取访问所述当前访问网页的用户信息和访问时间;
33、根据所述用户信息、所述访问时间和所述当前访问网页的网页路径生成网页标识。
34、可选地,所述在当前访问网页为预设网页时,获取访问所述当前访问网页的用户信息和访问时间的步骤之前,还包括:
35、获取用户的配置信息;
36、根据所述配置信息确定要进行数据采集的预设网页以及所述预设网页的数据采集策略。
37、此外,为实现上述目的,本专利技术还提供一种数据采集装置,所述装置包括:
38、生成模块,用于在当前访问网页为预设网页时,生成所述当前访问网页的网页标识;
39、采集模块,用于采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息;
40、检测模块,用于在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果。
41、此外,为实现上述目的,本专利技术还提出一种数据采集设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序配置为实现如上文所述的数据采集方法的步骤。
42、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如上文所述的数据采集方法的步骤。
43、本专利技术在当前访问网页为预设网页时,生成所述当前访问网页的网页标识;采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息;在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果。由于本专利技术是在当前访问网页为预设网页时,生成当前访问网页的网页标识;采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息;在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果。相对于现有的通过遍历网页,对遍历到的网页进行图像识别采集网页数据的方式,本专利技术上述方式能够提高数据采集的效率。
本文档来自技高网...【技术保护点】
1.一种数据采集方法,其特征在于,所述数据采集方法包括以下步骤:
2.如权利要求1所述的数据采集方法,其特征在于,所述采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息的步骤,包括:
3.如权利要求2所述的数据采集方法,其特征在于,所述根据所述数据采集策略采集用户基于所述当前访问网页产生的用户操作信息的步骤,包括:
4.如权利要求1所述的数据采集方法,其特征在于,所述预设条件包括关闭网页和/或刷新网页;
5.如权利要求1所述的数据采集方法,其特征在于,所述在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果的步骤之后,还包括:
6.如权利要求5所述的数据采集方法,其特征在于,所述动态分析包括网页性能分析;
7.如权利要求5所述的数据采集方法,其特征在于,所述动态分析还包括用户行为分析;
8.一种数据采集装置,其特征在于,所述数据采集装置包括:
9.一种数据采集设备,其特征在于,所述设备包括:存储器、处理器及
10.一种存储介质,其特征在于,所述存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如权利要求1至7任一项所述的数据采集方法的步骤。
...【技术特征摘要】
1.一种数据采集方法,其特征在于,所述数据采集方法包括以下步骤:
2.如权利要求1所述的数据采集方法,其特征在于,所述采集所述当前访问网页的网页信息和用户基于所述当前访问网页产生的用户操作信息的步骤,包括:
3.如权利要求2所述的数据采集方法,其特征在于,所述根据所述数据采集策略采集用户基于所述当前访问网页产生的用户操作信息的步骤,包括:
4.如权利要求1所述的数据采集方法,其特征在于,所述预设条件包括关闭网页和/或刷新网页;
5.如权利要求1所述的数据采集方法,其特征在于,所述在检测到所述当前访问网页满足预设条件时,根据所述网页标识、所述网页信息和所述用户操作信息生成网页数据采集结果的步...
【专利技术属性】
技术研发人员:孙慧慧,刘建烁,田新超,张超,梁敬彪,黄亚洲,郭建强,张珊珊,
申请(专利权)人:三六零数字安全科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。