本申请公开了一种恶意网址检测方法和系统。该方法包括:接收用户上报的统一资源定位符URL;获取与URL关联的超文本传输协议HTTP请求链,HTTP请求链是包含访问URL的多次HTTP请求-响应交互信息的时序链表;以及分析HTTP请求链以确定URL是否为恶意网址。按照本申请的技术方案,对恶意网址的检测结果准确,能够检测各种新出现的恶意网址,而且用户友好,用户只需要上传URL,无需提供更多信息。
【技术实现步骤摘要】
本公开一般涉及计算机
,具体涉及网络信息安全领域,尤其涉及一种用 于检测恶意网址的方法和系统。
技术介绍
在互联网上浏览网页时,一些恶意网站,例如钓鱼网站、挂马网站、欺诈网站等,使 得网络用户的信息安全受到威胁。 目前,基于网页文本内容的恶意网页检测方法已经比较完善。然而,黑色产业站长 为了绕过安全厂商的检测引擎,新出的恶意网址不再是包含大量的网页文本内容,而是通 过加密算法和网页图片化技术对恶意网页进行处理,同时增加有依赖的网页跳转。有依赖 的网页跳转具体表现为一次完整的网页请求中的下游网页依赖上游网页的相关信息,例如 refer、cookie等,从而导致检测引擎获取到的网页结果缺少文本内容特征,检测能力急剧 下降。 现有技术中一般通过静态爬虫抓取网页内容。静态爬虫的原理类似于Wget。Wget 是"WorldWideWeb(万维网)"与"get(获取)"的结合,它是一个从网络上自动下载文件 的自由工具,支持通过HTTP(超文本传输协议)、HTTPS(超文本传输安全协议)以及FTP(文 件传输协议)这三个最常见的TCP/IP(传输控制协议/互联网协议)下载,并可以使用HTTP 代理。 Wget将包括HTML(超文本标记语言)、css(级联样式表)、JavaScript、Flash文 件等的网页内容下载下来,供检测引擎分析。检测引擎只能依赖网页中某些固定成分进行 恶意网页打击。然而,这些固定成分依靠人工总结,依赖先验知识,费时费力,而且检测效果 不好。 部分有研发实力的安全厂商会尝试动态爬虫。通过对开源的浏览器内核(诸如 webkit或gecko之类的排版引擎)进行封装,使得爬虫能够渲染网页。然后输出网页渲染 后的内容以供检测引擎分析。 然而,上述检测方案无法应对新出现的恶意网址。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种能够有效提高恶意网址检测能 力的方案。 第一方面,本申请实施例提供了一种检测恶意网址的方法,包括:接收用户上报的 统一资源定位符URL;获取与该URL关联的超文本传输协议HTTP请求链,HTTP请求链是包 含访问URL的多次HTTP请求-响应交互信息的时序链表;以及分析该HTTP请求链以确定 URL是否为恶意网址。 第二方面,本申请实施例还提供了一种检测恶意网址的系统,包括爬虫子系统和 检测子系统。爬虫子系统包括爬虫调度服务器以及一个或多个动态爬虫服务器。爬虫调度 服务器配置用于接收用户上报的统一资源定位符URL,以及调度动态爬虫服务器。动态爬虫 服务器配置用于根据爬虫调度服务器的调度获取与URL关联的超文本传输协议HTTP请求 链,HTTP请求链是包含访问所述URL的多次HTTP请求-响应交互信息的时序链表。检测 子系统包括分析单元,配置用于分析HTTP请求链以确定URL是否为恶意网址。 本申请实施例提供的检测恶意网址的方案,通过获取与URL关联的HTTP请求链, 能够得到较为全面的URL关联的网页内容,从而能够对恶意网址进行准确检测。按照本申 请实施例的技术方案,对恶意网址的检测结果准确,能够检测各种新出现的恶意网址,而且 用户友好,用户只需要上传URL,无需提供更多信息。【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显: 图1示出了其中可以应用本申请实施例的示例性系统架构; 图2示出了根据本申请实施例的用于检测恶意网址的方法的示例性流程图; 图3示出了HTTP请求链的一个示例性屏幕截图; 图4示出了HTTP请求链的一种示例性抽象表示方式; 图5示出了根据本申请一个实施例的用于获取HTTP请求链的方法的示例性流程 图; 图6示出了根据本申请一个实施例的用于分析HTTP请求链的方法的示例性流程 图; 图7示出了根据本申请另一实施例的用于检测恶意网址的方法的示例性流程图; 图8示出了一个仿冒QQ登录的恶意网址的页面截图; 图9示出了官方网站的页面截图; 图10示出了访问官方网站时的HTTP请求链信息; 图11、图12和图13分别示出了访问上述仿冒QQ登录的恶意网址的HTTP请求链 信息中的一部分; 图14示出了根据本申请一个实施例的用于检测恶意网址的系统的示例性结构框 图;以及 图15示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。【具体实施方式】 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与专利技术相关的部分。 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。 请参考图1,其示出了可以应用本申请实施例的示例性系统架构100。 如图1所示,系统架构100可以包括终端设备101、102、网络103和服务器104、 105、106和107。网络103用以在终端设备101、102和服务器104、105、106、107之间提供 通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆 等等。 用户110可以使用终端设备101、102通过网络103与服务器104、105、106、107交 互,以访问各种服务,例如浏览网页、下载数据等。终端设备1〇1、1〇2上可以安装有各种客 户端应用,例如可以接入统一资源定位符URL云服务的应用,包括但不限于浏览器、安全应 用等。 终端设备1〇1、1〇2可以是各种电子设备,包括但不限于个人电脑、智能手机、智能 电视、平板电脑、个人数字助理、电子书阅读器等等。 服务器104、105、106、107可以是提供各种服务的服务器。服务器可以响应于用户 的服务请求而提供服务。可以理解,一个服务器可以提供一种或多种服务,同一种服务也可 以由多个服务器来提供。在本申请的实施例中,所涉及的服务器可以包括但不限于,爬虫 调度服务器、动态爬虫服务器、网页服务器、检测服务器、图像识别服务器、语义分析服务器 等。 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需 要,可以具有任意数目的终端设备、网络和服务器。 如
技术介绍
中所提到的,现有技术一般通过静态爬虫抓取网页内容。然而,由于静 态爬虫的方案孤立地看待每条URL,不关心完整的HTTP请求会话过程,因此会丢失上下文 信息,不能获取网页最终的渲染结果,从而导致检测引擎获取的网页内容和普通用户看到 的网页内容不一致,继而导致检测结果不准确。此外,网页中的特征规律难以寻找,即使找 到一些,检测的误报率也很高。 另一方面,动态爬虫的方案只关心网页最终的结果,忽略中间过程。动态爬虫的方 案关注网页内容本身,也即网页body(主体)部分,忽略外部描述信息,例如header(首部) 部分,丢失了网页描述信息。而且,即使使用部分header信息,也仅仅是通过人工设置判断 规则集(例如,if-else语句)来进行分类,费时费力,并且准确率低。 鉴于现有技术的上述缺陷,本申请实施例提供了一种基于HTTP请求链的恶意网 址检测方案。HTTP请求链是包含访问URL本文档来自技高网...
【技术保护点】
一种检测恶意网址的方法,包括:接收用户上报的统一资源定位符URL;获取与所述URL关联的超文本传输协议HTTP请求链,所述HTTP请求链是包含访问所述URL的多次HTTP请求‑响应交互信息的时序链表;以及分析所述HTTP请求链以确定所述URL是否为恶意网址。
【技术特征摘要】
【专利技术属性】
技术研发人员:唐呈光,杨念,耿志峰,
申请(专利权)人:安一恒通北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。