基于机器学习的钓鱼网站URL检测方法及系统技术方案

技术编号：28838057 阅读：26 留言：0更新日期：2021-06-11 23:35

本发明专利技术提供一种基于机器学习的钓鱼网站URL检测方法及系统，属于信息安全领域。所述方法包括：对待测URL进行解析，提取待测URL的结构信息和组成待测URL的单词；根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征；将所述URL特征输入训练好的URL检测模型进行检测，得到待测URL为异常URL的概率。与传统的黑名单技术相比，本发明专利技术的URL检测方法从URL中提取特征训练模型进行预测，覆盖范围更广，检测结果更加准确，采用训练好的URL模型进行检测，不需要频繁进行更新，且占用资源较少，普通计算机也能够运行，满足广大用户的需求。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的钓鱼网站URL检测方法及系统
本专利技术涉及信息安全领域，具体地涉及一种基于机器学习的钓鱼网站URL检测方法以及一种基于机器学习的钓鱼网站URL检测系统。
技术介绍
网络钓鱼是当今互联网上的一个主要问题，由于犯罪分子的欺骗手段，许多用户正成为受害者。网络钓鱼是一种欺诈性技术，以电子邮件欺骗作为其最初媒介进行欺骗性通信，然后通过欺骗性网站从受害者那里获取所需信息，例如用户名、密码、信用卡和银行帐户等信息。电子邮件中请求的操作通常是打开Web链接并在Web页面上填写个人敏感信息，或作为对电子邮件的答复来提供其个人身份或银行信息。用户单击欺骗性电子邮件中提供的Web链接后，将被定向到由网络钓鱼者创建的网络钓鱼网站。由于该网络钓鱼网站看起来与原始网站相似，因此，用户常常无法将其识别为恶意网站，并且按要求输入所要求的信息，从而被成功网络钓鱼。除电子邮件外，攻击者还可以通过在真实网站上嵌入广告宣传链接来引导用户访问恶意链接。此外，在某些情况下，受感染的DNS可能导致用户重定向到异常网站和钓鱼网站。黑名单技术仍然是用户抵御此类网络钓鱼网站的最常见防御措施，使用近似匹配算法来检查可疑URL是否存在于黑名单中。但该方法存在如下不能解决的技术问题：1、黑名单是一种被动的防御方法，需要不断维护，经常更新(删除已经过期的URL，添加新的钓鱼网站URL)，这并不是一件简单的事。2、攻击者在破坏网络钓鱼网页之后，可能会将其植入到被认为是安全的服务器中，在这种情况下，基于黑名单的方法将无法检测到钓鱼网...

【技术保护点】
1.一种基于机器学习的钓鱼网站URL检测方法，其特征在于，所述方法包括：/n对待测URL进行解析，提取待测URL的结构信息和组成待测URL的单词；/n根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征；/n将所述URL特征输入训练好的URL检测模型进行检测，得到待测URL为异常URL的概率。/n

【技术特征摘要】
1.一种基于机器学习的钓鱼网站URL检测方法，其特征在于，所述方法包括：
对待测URL进行解析，提取待测URL的结构信息和组成待测URL的单词；
根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征；
将所述URL特征输入训练好的URL检测模型进行检测，得到待测URL为异常URL的概率。

2.根据权利要求1所述的基于机器学习的钓鱼网站URL检测方法，其特征在于，所述URL的结构信息包括：URL子域名、URL域名、URL后缀和URL路径；所述对待测URL进行解析，提取URL的结构信息和组成待测URL的单词，包括：
对待测URL进行解析，按照URL的结构提取URL的结构信息；
根据特殊字符对URL进行划分，提取组成待测URL的单词。

3.根据权利要求2所述的基于机器学习的钓鱼网站URL检测方法，其特征在于，所述URL特征包括第一特征、第二特征和第三特征；所述根据所述待测URL、所述URL的结构信息和组成待测URL的单词提取URL特征，包括：
根据所述URL的结构信息提取第一特征；
根据所述待测URL提取第二特征；
根据所述组成待测URL的单词提取第三特征。

4.根据权利要求3所述的基于机器学习的钓鱼网站URL检测方法，其特征在于，所述根据所述URL结构信息提取第一特征，包括：
判断URL域名是否为IP地址形式，得到URL的IP地址形式判断结果；
判断URL域名是否是DGA域名，得到URL域名判断结果；
判断所述待测URL是否存在于排名前一百万的域名列表中；
所述第一特征包括：URL的IP地址形式判断结果、URL域名判断结果、待测URL是否存在于排名前一百万的域名列表中。

5.根据权利要求3所述的基于机器学习的钓鱼网站URL检测方法，其特征在于，所述根据所述待测URL提取第二特征，包括：
统计所述待测URL的长度；
统计所述待测URL中特殊字符的个数；
判断所述待测URL中是否存在特殊关键字；
计算所述待测URL中的数字的个数；
计算URL中数字与字母的比例值；
计算URL的熵；
计算URL的KS检验值；
计算URL的KL距离值；
计算URL的欧式距离值；
计算URL中元音与辅音的比例值；
判断URL是否存在HTML实体，得到URL的HTML实体判断结果；
所述第二特征包括：待测URL的长度、待测URL中特殊字符的个数、待测URL中的数字的个数、待测URL中是否存在特殊关键字以及URL中数字与字母的比...

【专利技术属性】
技术研发人员：于金龙，王智民，王高杰，卯路宁，
申请(专利权)人：北京六方云信息技术有限公司，北京六方云科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人