文本信息提取方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:39289118 阅读:8 留言:0更新日期:2023-11-07 10:58
本申请提供一种文本信息提取方法、装置、计算机设备以及存储介质。该方法通过启动动态沙盒,在动态沙盒中通过预设的有限状态机运行应用程序,并通过动态沙盒记录应用程序的运行过程中进入目标应用页面的第一时间点以及退出目标应用页面的第二时间点,以及通过动态沙盒对应用程序的运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志,进而从应用操作日志中获取在第一时间点与第二时间点之间目标行为操作对应的操作函数信息,从操作函数信息中确定操作对象信息,通过操作对象信息提取目标应用页面中的文本信息。通过该方法实现自动获取目标应用页面中所有文本信息,提高文本信息获取效率,保证目标应用页面中文本信息无遗漏。应用页面中文本信息无遗漏。应用页面中文本信息无遗漏。

【技术实现步骤摘要】
文本信息提取方法、装置、计算机设备以及存储介质


[0001]本申请涉及计算机应用
,具体涉及一种文本信息提取方法、装置、计算机设备以及存储介质。

技术介绍

[0002]随着科技的发展,实现不同功能的应用程序越来越多,应用程序在为用户提供服务时往往提供业务相关的文本信息,例如,提供隐私政策文本以告知用户在使用过程中用户个人信息如何被搜集、使用、与第三方共享的情况,而在应用程序上架前,应用程序供应商会通过对隐私政策文本进行分析以识别该应用程序是否合规安全。
[0003]现有技术中,应用程序中文本信息通常通过人工获取或通过文字识别技术以识别应用程序中各个应用页面的文本信息,文本信息获取效率低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种文本信息提取方法、装置、计算机设备以及存储介质,用以提高应用程序中文本信息提取效率。
[0005]第一方面,本申请提供一种文本信息提取方法,该方法包括:
[0006]启动动态沙盒,在动态沙盒中通过预设的有限状态机运行应用程序;
[0007]通过动态沙盒记录应用程序在运行过程中进入目标应用页面的第一时间点以及退出目标应用页面的第二时间点;
[0008]通过动态沙盒对应用程序在运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志;
[0009]从应用操作日志中获取在第一时间点与第二时间点之间目标行为操作对应的操作函数信息;
[0010]从操作函数信息中确定操作对象信息,通过操作对象信息提取目标应用页面中的文本信息。
[0011]在本申请一些实施例中,在动态沙盒中通过预设的有限状态机运行应用程序的步骤,包括:
[0012]获取当前状态下的第一应用页面的页面类型;
[0013]通过预设的有限状态机以及第一应用页面对应的页面类型,确定当前状态下针对应用程序的输入操作;
[0014]基于输入操作使得应用程序跳转至第二应用页面。
[0015]在本申请一些实施例中,通过动态沙盒记录应用程序在运行过程中进入目标应用页面的第一时间点的步骤,包括:
[0016]若第一应用页面的页面类型为目标应用页面对应的前序应用页面且第一应用页面中包括第一超链接文本,通过有限状态机输入针对第一超链接文本的点击操作,使得应用程序的状态转移至与第一超链接文本对应的第二应用页面;
[0017]获取第二应用页面的页面类型,若第二应用页面为目标应用页面,记录点击操作的点击时间作为进入目标应用页面的第一时间点。
[0018]在本申请一些实施例中,获取当前状态下的第一应用页面的页面类型的步骤,包括:
[0019]对第一应用页面进行截图,得到页面截图;
[0020]基于页面截图对第一应用页面进行分类,得到第一应用页面的页面类型。
[0021]在本申请一些实施例中,通过动态沙盒对应用程序在运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志的步骤,包括:
[0022]确定目标行为操作对应的操作函数代码;
[0023]在应用程序的运行过程中若检测到操作函数代码的调用,将所调用的操作函数代码以及操作对象信息作为操作函数信息进行保存,生成应用操作日志。
[0024]在本申请一些实施例中,操作对象信息包括统一资源定位符;
[0025]通过操作对象信息提取目标应用页面中的文本信息的步骤,包括:
[0026]确定统一资源定位符所定位的网页;
[0027]利用爬虫技术从网页中爬取第一网页文本内容;
[0028]若从第一网页文本内容匹配到目标字段,将第一网页文本内容保存为目标应用页面中的文本信息。
[0029]在本申请一些实施例中,将第一网页文本内容保存为目标应用页面中的文本信息的步骤之后,还包括:
[0030]识别第一网页文本内容中的第二超链接文本;
[0031]若第一网页文本内容中包含第二超链接文本,确定第二超链接文本指向的子网页;
[0032]利用爬虫技术从子网页中爬取第二网页文本内容,并将第二网页文本内容保存为目标应用页面的文本信息。
[0033]在本申请一些实施例中,操作对象信息包括本地路径字段信息;
[0034]通过操作对象信息提取目标应用页面中的文本信息的步骤,包括:
[0035]确定本地路径字段信息指向的本地文件;
[0036]从本地文件中读取文件文本内容;
[0037]若从文件文本内容中匹配到目标字段,将文件文本内容保存为目标应用页面中的文本信息。
[0038]在本申请一些实施例中,操作对象信息包括明文数据;
[0039]通过操作对象信息提取目标应用页面中的文本信息的步骤,包括:
[0040]若从明文数据中匹配到目标字段,将明文数据保存为目标应用页面中的文本信息。
[0041]第二方面,本申请提供一种文本信息提取装置,该装置包括:
[0042]应用程序运行模块,用于启动动态沙盒,在动态沙盒中通过预设的有限状态机运行应用程序;
[0043]时间点记录模块,用于通过动态沙盒记录应用程序在运行过程中进入目标应用页面的第一时间点以及退出目标应用页面的第二时间点;
[0044]操作日志获取模块,用于通过动态沙盒对应用程序在运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志;
[0045]函数信息获取模块,用于从应用操作日志中获取在第一时间点与第二时间点之间目标行为操作对应的操作函数信息;
[0046]文本信息获取模块,用于从操作函数信息中确定操作对象信息,通过操作对象信息提取目标应用页面中的文本信息。
[0047]第三方面,本申请还提供一种计算机设备,该计算机设备包括:
[0048]一个或多个处理器;
[0049]存储器;以及
[0050]一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现的文本信息提取方法。
[0051]第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行的文本信息提取方法中的步骤。
[0052]第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本信息提取方法。
[0053]上述文本信息提取方法、装置、计算机设备以及存储介质,启动动态沙盒,在动态沙盒中通过预设的有限状态机运行应用程序,通过动态沙盒记录应用程序在运行过程中进入目标应用页面的第一时间点以及退出目标应用页面的第二时间点,并通过动态沙盒对应用程序在运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志,进而从应用操作日志中获取在第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息提取方法,其特征在于,所述方法包括:启动动态沙盒,在动态沙盒中通过预设的有限状态机运行应用程序;通过所述动态沙盒记录所述应用程序在运行过程中进入目标应用页面的第一时间点以及退出所述目标应用页面的第二时间点;通过所述动态沙盒对所述应用程序在运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志;从所述应用操作日志中获取在所述第一时间点与所述第二时间点之间目标行为操作对应的操作函数信息;从所述操作函数信息中确定操作对象信息,通过所述操作对象信息提取所述目标应用页面中的文本信息。2.根据权利要求1所述的方法,其特征在于,所述在动态沙盒中通过预设的有限状态机运行应用程序的步骤,包括:获取当前状态下的第一应用页面的页面类型;通过预设的有限状态机以及所述第一应用页面对应的页面类型,确定当前状态下针对所述应用程序的输入操作;基于所述输入操作使得所述应用程序跳转至第二应用页面。3.根据权利要求2所述的方法,其特征在于,所述通过所述动态沙盒记录所述应用程序在运行过程中进入目标应用页面的第一时间点的步骤,包括:若所述第一应用页面的页面类型为所述目标应用页面对应的前序应用页面且所述第一应用页面中包括第一超链接文本,通过所述有限状态机输入针对所述第一超链接文本的点击操作,使得所述应用程序的状态转移至与所述第一超链接文本对应的第二应用页面;获取所述第二应用页面的页面类型,若所述第二应用页面为所述目标应用页面,记录所述点击操作的点击时间作为进入所述目标应用页面的第一时间点。4.根据权利要求2所述的方法,其特征在于,所述获取当前状态下的第一应用页面的页面类型的步骤,包括:对所述第一应用页面进行截图,得到页面截图;基于所述页面截图对所述第一应用页面进行分类,得到所述第一应用页面的页面类型。5.根据权利要求1所述的方法,其特征在于,所述通过所述动态沙盒对所述应用程序在运行过程中的目标行为操作进行检测,获取目标行为操作以生成应用操作日志的步骤,包括:确定目标行为操作对应的操作函数代码;在所述应用程序的运行过程中若检测到所述操作函数代码的调用,将所调用的操作函数代码以及操作对象信息作为操作函数信息进行保存,生成应用操作日志。6.根据权利要求1所述的方法,其特征在于,所述操作对象信息包括统一资源定位符;所述通过所述操作对象信息提取所述目标应用页面中的文本信息的步骤,包括:确定所述统一资源定位符所定位的网页;利用爬虫技术从所述网页中爬取第一网页文本内容;若从所述第一网页文本内容匹配到目标字段,将所述第...

【专利技术属性】
技术研发人员:汪先河
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1