目标信息获取方法、装置及计算机可读存储介质制造方法及图纸

技术编号:28872045 阅读:16 留言:0更新日期:2021-06-15 23:04
本申请提供了一种目标信息获取方法、装置及计算机可读存储介质,其中该方法包括:将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;根据所述代码结果类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。利用上述方法,能够自动识别目标网站并自动获取目标信息。

【技术实现步骤摘要】
目标信息获取方法、装置及计算机可读存储介质
本申请属于领域,具体涉及一种目标信息获取方法、装置及计算机可读存储介质。
技术介绍
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认其为现有技术。互联网上充斥着大量的赌博欺诈网站,给社会带来巨大财富损失。其中能够有效防范赌博欺诈的措施就是掐断犯罪分子的入账渠道,方式之一就是对赌博欺诈网站的收款卡号进行封禁,而封禁的前提条件是获得相关收款卡号。现有获取赌博收款卡号的方式,主要是通过人工排查方式对海量的赌博网站进行排查,获得赌博网站的收款账户。除此之外,还有诸如钓鱼网站、传销网站等各类网站,需要人工的方式去排查以及从中确定出目标信息。人工方式效率低下,获取信息的能力有限,且耗费人力巨大。
技术实现思路
针对上述现有技术的问题,本申请实施例提出了一种目标信息获取方法、装置及计算机可读存储介质。利用这种方法及装置,能够至少部分解决上述问题。本申请的实施例中提供了以下方案:一种目标信息获取方法,包括:将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。在一些实施例中,所述目标网页的网页代码结构特征包括:超文本标记语言元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。在一些实施例中,所述目标信息包括:目标网站的收款账户;所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。在一些实施例中,进行注册操作,包括:对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击;或者,确定网页源代码中注册关键字指向的网址,并跳转至注册关键字指向的网址。在一些实施例中,根据查找到的交互策略与对应的目标网站进行交互,包括:对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;在相对于定位出的提示文字进行位移,以在对应的文本框内执行点击操作而启动文本填入。在一些实施例中,充值操作以获取收款账户,包括:对网页进行机器视觉分析以定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。在一些实施例中,当获取到收款链接时,根据收款链接提取收款账户。在一些实施例中,所述待分析网址的网页内容特征包括:待分析网址的网页的文字特征、图片特征和视频特征中的至少一项。在一些实施例中,还包括:对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。在一些实施例中,对种子网站进行遍历搜索,包括:对种子网站进行深度遍历或广度遍历搜索。在一些实施例中,所述第一模型包括机器学习模型,和/或,所述第二模型包括机器学习模型。本申请的实施例中提供了以下方案:一种目标信息获取装置,包括:第一分析模块,用于将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;第二分析模块,用于将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;目标信息获取模块,用于根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。在一些实施例中,所述目标网页的网页代码结构特征包括:超文本标记语言元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。在一些实施例中,所述目标信息包括:目标网站的收款账户;所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。在一些实施例中,目标信息获取模块具体用于::对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击;或者,确定网页源代码中注册关键字指向的网址,并跳转至注册关键字指向的网址。在一些实施例中,目标信息获取模块具体用于:对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;在相对于定位出的提示文字进行位移,以在对应的文本框内执行点击操作而启动文本填入。在一些实施例中,目标信息获取模块具体用于:对网页进行机器视觉分析定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。在一些实施例中,目标信息获取模块具体用于:当获取到收款链接时,根据收款链接提取收款账户。在一些实施例中,所述待分析网址的网页内容特征包括:待分析网址的网页的文字特征、图片特征和视频特征中的至少一项。在一些实施例中,还包括:网页搜索模块,用于对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。在一些实施例中,网页搜索模块具体用于:对种子网站进行深度遍历或广度遍历搜索。在一些实施例中,所述第一模型包括机器学习模型;和/或,所述第二模型包括机器学习模型。本申请的实施例中提供了以下方案:一种目标信息获取装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述的方法。本申请的实施例中提供了以下方案:一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行:前述的方法。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:同一类型的目标网页的网页内容特征具有一定的相似性,故可以根据网页内容特征判断一个网页是不是所关注类型的目标网页。为降低网站开发的成本,目标网站通常采用相似的网页代码结构。如两个网站的网页代码结构的相似度足够高,可推断二者与用户的交互方式的相似度也就足够高。如此,可以根据目标网页的网页代码结构特征推断与对应的目标网站的交互策略,进而在于目标网站进行交互的过程中,成功获得目标信息的成功率较高。上述过程均可由程序运行而执行,大大降低人力成本。应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具本文档来自技高网...

【技术保护点】
1.一种目标信息获取方法,其特征在于,包括:/n将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;/n将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;/n根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。/n

【技术特征摘要】
1.一种目标信息获取方法,其特征在于,包括:
将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;
将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;
根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。


2.根据权利要求1所述的方法,其特征在于,所述目标网页的网页代码结构特征包括:超文本标记语言元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。


3.根据权利要求1所述的方法,其特征在于,所述目标信息包括:目标网站的收款账户;
所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。


4.根据权利要求3所述的方法,其特征在于,进行注册操作,包括:
对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击;或者,
确定网页源代码中注册关键字指向的网址,并跳转至注册关键字指向的网址。


5.根据权利要求3所述的方法,其特征在于,根据查找到的交互策略与对应的目标网站进行交互,包括:
对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;
在相对于定位出的提示文字进行光标位移,以在对应的文本框内执行点击操作而启动文本填入。


6.根据权利要求3所述的方法,其特征在于,充值操作以获取收款账户,包括:
对网页进行机器视觉分析以定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,
分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。


7.根据权利要求6所述的方法,其特征在于,当获取到收款链接时,根据收款链接提取收款账户。


8.根据权利要求1所述的方法,其特征在于,所述待分析网址的网页内容特征包括:
待分析网址的网页的文字特征、图片特征和视频特征中的至少一项。


9.根据权利要求1所述的方法,其特征在于,还包括:
对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。


10.根据权利要求9所述的方法,其特征在于,对种子网站进行遍历搜索,包括:对种子网站进行深度遍历或广度遍历搜索。


11.根据权利要求1所述的方法,其特征在于,所述第一模型包括机器学习模型,和/或,所述第二模型包括机器学习模型。


12.一种目标信息获取装置,其特征在于,包括:
第一分析模块,用于将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;
第二分析模块,用于将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;
目标信息获取...

【专利技术属性】
技术研发人员:郭琦闵勇肖梁刘斌
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1