【技术实现步骤摘要】
一种App数据采集方法及系统
[0001]本专利技术涉及移动应用
,尤其涉及一种App数据采集方法及系统。
技术介绍
[0002]当前,移动互联网应用已超越互联网与通信领域范畴,快速向智能电视等新型智能硬件领域延伸,移动应用作为一种重要的互联网信息服务方式,其普及和使用为用户带来了庞大的数据,确保其提供的内容安全至关重要,但目前尚不具备成熟的工具对移动应用的数据进行获取和分析,与此同时,以Android为代表的移动互联网平台正逐步成为恶意应用滋生的重灾区,因此,对移动应用开展内容安全监测及其重要。
[0003]开展内容安全监测工作的第一步就是要批量、自动化的获取移动应用的内容信息。由于各个APP应用开发没有统一的标准,后台数据交互方式不一致,难以实现通用的数据获取框架,而定制化开发的时间成本较高,难以快速实现信息安全监测评估。此外,由于移动应用的界面系统和基于HTML(HyperText Markup Language,超文本标记语言)的网页有较大差异,Web界面的自动化爬虫无法简单地在移动应用的视图爬取中使用。另外,移动应用的视图元素缺乏类似URL(Universal Resource Locator,统一资源定位符)的较为稳定的资源定位符,在爬取大量移动应用的试图元素之后,难以像Web爬虫一样通过URL对元素进行稳定的界面重现和相似性判定等工作。
[0004]对于上述问题的解决方法有很多,公开号为CN112364227A的中国专利“一种移动APP数据采集方法”,根据APP中的网络请求数据包, ...
【技术保护点】
【技术特征摘要】
1.一种App数据采集方法,其特征在于,包括以下步骤:S1.对群控平台中所有应用软件进行遍历采集,得到群控平台应用软件信息;S2.对群控平台应用软件中的内容进行深度优先遍历采集,并将获取的内容进行整合;S3.对整合后的采集内容进行判断清洗,获得最终应用软件通用内容。2.根据权利要求1所述的一种App数据采集方法,其特征在于,群控平台应用软件信息包括对应APP的名称、包名、签名以及其他基础信息。3.根据权利要求1所述的一种App数据采集方法,其特征在于,所述S2对应用软件APP集合中的每个APP元素进行深度优先遍历采集,包括以下步骤:第一步,选定某一APP中一个未被访问过的界面作为顶点V或者访问指定的起始顶点V,并将其标记为已访问过;第二步,搜索与顶点V邻接的所有顶点,判断这些顶点是否被访问过,如果有未被访问过的顶点,则任选一个顶点W进行访问;再选取与顶点W邻接的未被访问的任一顶点并进行访问,一次重复进行;当一个顶点的所有的邻接顶点都被访问过时,则依次回到最近被访问的顶点;若该顶点还有其他邻接顶点未被访问,则从这些未被访问的顶点中取出一个并重复上述过程,直到与起始顶点V相通的所有顶点都被访问过为止;第三步,若在当前界面中依然有顶点未被访问,则在选取其中一个顶点作为起始顶点并访问,之后重复第二步,反之则遍历结束。4.根据权利要求3所述的一种App数据采集方法,其特征在于,第二步中,任选一个顶点W进行访问,即对于界面的内容进行采集,步骤如下:对登录后的APP后进行模拟点击,进入界面,并判断点击元素是否为标题;若点击元素为标题,则对当前界面内容进行获取,将该界面内容获取后,界面下滑;若判定点击元素不是标题,则返回,进行界面下滑操作;判断下滑是否到底,每次滑动结束截取当前群控平台界面图像,与上一张图像进行相似度比较,判断两界面是否为不同界面,若为两个不同的界面,则利用正则表达式对界面内容采集;若下滑未到底,则重新进行模拟点击,进行重复操作;若下滑到底则点击其他组件,完成全部点击后关闭APP。5.根据权利要求4所述的一种App数据采集方法,其特征在于,截取当前群控平台界面图像,与上一张图像进行相似度比较,判断两界面是否为不同界面,步骤如下:计算得到两图像的相似度为:S=coc
×
L(P
n
,p
f
)
×
C(P
n
,P
f
)
×
S(P
n
,P
f
)其中,P
n
和P
f
为相邻两张图像,μ
n
、μ
f
为两图像的均值分,σ
【专利技术属性】
技术研发人员:李鹏霄,王媛媛,隋明爽,艾政阳,段荣昌,王红兵,时磊,侯炜,任博雅,吕东,王海洋,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。