基于机器学习的钓鱼网站URL检测方法及系统技术方案

技术编号:28838057 阅读:26 留言:0更新日期:2021-06-11 23:35
本发明专利技术提供一种基于机器学习的钓鱼网站URL检测方法及系统,属于信息安全领域。所述方法包括:对待测URL进行解析,提取待测URL的结构信息和组成待测URL的单词;根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征;将所述URL特征输入训练好的URL检测模型进行检测,得到待测URL为异常URL的概率。与传统的黑名单技术相比,本发明专利技术的URL检测方法从URL中提取特征训练模型进行预测,覆盖范围更广,检测结果更加准确,采用训练好的URL模型进行检测,不需要频繁进行更新,且占用资源较少,普通计算机也能够运行,满足广大用户的需求。

【技术实现步骤摘要】
基于机器学习的钓鱼网站URL检测方法及系统
本专利技术涉及信息安全领域,具体地涉及一种基于机器学习的钓鱼网站URL检测方法以及一种基于机器学习的钓鱼网站URL检测系统。
技术介绍
网络钓鱼是当今互联网上的一个主要问题,由于犯罪分子的欺骗手段,许多用户正成为受害者。网络钓鱼是一种欺诈性技术,以电子邮件欺骗作为其最初媒介进行欺骗性通信,然后通过欺骗性网站从受害者那里获取所需信息,例如用户名、密码、信用卡和银行帐户等信息。电子邮件中请求的操作通常是打开Web链接并在Web页面上填写个人敏感信息,或作为对电子邮件的答复来提供其个人身份或银行信息。用户单击欺骗性电子邮件中提供的Web链接后,将被定向到由网络钓鱼者创建的网络钓鱼网站。由于该网络钓鱼网站看起来与原始网站相似,因此,用户常常无法将其识别为恶意网站,并且按要求输入所要求的信息,从而被成功网络钓鱼。除电子邮件外,攻击者还可以通过在真实网站上嵌入广告宣传链接来引导用户访问恶意链接。此外,在某些情况下,受感染的DNS可能导致用户重定向到异常网站和钓鱼网站。黑名单技术仍然是用户抵御此类网络钓鱼网站的最常见防御措施,使用近似匹配算法来检查可疑URL是否存在于黑名单中。但该方法存在如下不能解决的技术问题:1、黑名单是一种被动的防御方法,需要不断维护,经常更新(删除已经过期的URL,添加新的钓鱼网站URL),这并不是一件简单的事。2、攻击者在破坏网络钓鱼网页之后,可能会将其植入到被认为是安全的服务器中,在这种情况下,基于黑名单的方法将无法检测到钓鱼网站。3、系统无法应对黑名单数量不断增长的情况,随着时间的增长,黑名单数量也越来越多,黑名单数据会占用越来越多的系统资源。因此黑名单技术已经无法满足用户的需求。
技术实现思路
本专利技术实施方式的目的是提供一种基于机器学习的钓鱼网站URL检测方法及系统,与传统的黑名单技术相比,本专利技术的URL检测方法从URL中提取特征训练模型进行预测,覆盖范围更广,检测结果更加准确,采用训练好的URL模型进行检测,不需要频繁进行更新,且占用资源较少,普通计算机也能够运行,满足广大用户的需求。为了实现上述目的,本专利技术第一方面提供一种基于机器学习的钓鱼网站URL检测方法,所述方法包括:对待测URL进行解析,提取待测URL的结构信息和组成待测URL的单词;根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征;将所述URL特征输入训练好的URL检测模型进行检测,得到待测URL为异常URL的概率。可选的,所述URL的结构信息包括:URL子域名、URL域名、URL后缀和URL路径;所述对待测URL进行解析,提取URL的结构信息和组成待测URL的单词,包括:对待测URL进行解析,按照URL的结构提取URL的结构信息;根据特殊字符对URL进行划分,提取组成待测URL的单词。将URL解析分解后能够提取出更准确的特征,从而提高检测准确率。可选的,所述URL特征包括第一特征、第二特征和第三特征;所述根据所述待测URL、所述URL的结构信息和组成待测URL的单词提取URL特征,包括:根据所述URL的结构信息提取第一特征;根据所述待测URL提取第二特征;根据所述组成待测URL的单词提取第三特征。进一步地,所述根据所述URL结构信息提取第一特征,包括:判断URL域名是否为IP地址形式,得到URL的IP地址形式判断结果;判断URL域名是否是DGA域名,得到URL域名判断结果;判断所述待测URL是否存在于排名前一百万的域名列表中;所述第一特征包括:URL的IP地址形式判断结果、URL域名判断结果、待测URL是否存在于排名前一百万的域名列表中。第一特征基于URL的结构信息提取,体现了URL的结构的特性。进一步地,所述根据所述待测URL提取第二特征,包括:统计所述待测URL的长度;统计所述待测URL中特殊字符的个数;判断所述待测URL中是否存在特殊关键字;计算所述待测URL中的数字的个数;计算URL中数字与字母的比例值;计算URL的熵;计算URL的KS检验值;计算URL的KL距离值;计算URL的欧式距离值;计算URL中元音与辅音的比例值;判断URL是否存在HTML实体,得到URL的HTML实体判断结果;所述第二特征包括:待测URL的长度、待测URL中特殊字符的个数、待测URL中的数字的个数、待测URL中是否存在特殊关键字以及URL中数字与字母的比例值、URL的熵、URL的KS检验值、URL的KL距离值、URL的欧式距离值、URL中元音与辅音的比例值和URL的HTML实体判断结果。第二特征基于URL本身提取,体现了URL的整体特性。进一步地,所述根据所述组成待测URL的单词提取第三特征,包括:将所述组成待测URL的单词添加到剩余单词列表中;逐一判断所述剩余单词列表中的单词是否为随机字符,将为随机字符的单词添加到随机字符单词列表中,将未添加的单词保留在所述剩余单词列表中;逐一判断所述剩余单词列表中长度大于设定长度阈值的单词是否为多个单词组成的组合词,将组合词添加到组合词列表中,将未添加的单词保留在所述剩余单词列表中;逐一判断所述剩余单词列表中的单词是否拼写错误,将拼写错误的单词添加到错误单词列表中,将未添加的单词保留在所述剩余单词列表中;逐一计算所述剩余单词列表中的单词与品牌名称的相似度,将相似度大于设定相似度阈值的单词判断为相似单词,将相似单词添加到相似单词列表,将未添加的单词保留在所述剩余单词列表中;计算所述随机字符单词列表的长度、所述组合词列表的长度、所述错误单词列表的长度、所述相似单词列表的长度以及所述剩余单词列表的长度;所述第三特征包括所述随机字符单词列表的长度、所述组合词列表的长度、所述错误单词列表的长度、所述相似单词列表的长度和所述剩余单词列表的长度。第三特征基于URL的组成单词提取,提取出随机字符、组合单词、拼写错误、与知名品牌名称相似的词等特征,使检测结果更加准确。从URL本身、URL对应的结构信息,以及URL的组成单词三个维度进行特征提取,提取的特征能够全面体现URL的特点,使得检测结果更准确。进一步地,所述逐一判断所述剩余单词列表中的单词是否为随机字符,包括:根据N-Gram语言模型建立马尔可夫链模型判断所述剩余单词列表中的单词是否为随机字符。N-Gram语言模型通过常规文档来训练,训练过程简单,同时该语言模型能够准确判断单词是否为随机字符。可选的,所述训练好的URL检测模型为:随机森林算法模型、决策树模型、GBDT模型、XGBoost算法模型或SVM模型。本专利技术第二方面提供一种基于机器学习的钓鱼网站URL检测系统,所述系统包括:URL解析单元,用于对待测URL进行解析,提取待测URL的结构信息和本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的钓鱼网站URL检测方法,其特征在于,所述方法包括:/n对待测URL进行解析,提取待测URL的结构信息和组成待测URL的单词;/n根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征;/n将所述URL特征输入训练好的URL检测模型进行检测,得到待测URL为异常URL的概率。/n

【技术特征摘要】
1.一种基于机器学习的钓鱼网站URL检测方法,其特征在于,所述方法包括:
对待测URL进行解析,提取待测URL的结构信息和组成待测URL的单词;
根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征;
将所述URL特征输入训练好的URL检测模型进行检测,得到待测URL为异常URL的概率。


2.根据权利要求1所述的基于机器学习的钓鱼网站URL检测方法,其特征在于,所述URL的结构信息包括:URL子域名、URL域名、URL后缀和URL路径;所述对待测URL进行解析,提取URL的结构信息和组成待测URL的单词,包括:
对待测URL进行解析,按照URL的结构提取URL的结构信息;
根据特殊字符对URL进行划分,提取组成待测URL的单词。


3.根据权利要求2所述的基于机器学习的钓鱼网站URL检测方法,其特征在于,所述URL特征包括第一特征、第二特征和第三特征;所述根据所述待测URL、所述URL的结构信息和组成待测URL的单词提取URL特征,包括:
根据所述URL的结构信息提取第一特征;
根据所述待测URL提取第二特征;
根据所述组成待测URL的单词提取第三特征。


4.根据权利要求3所述的基于机器学习的钓鱼网站URL检测方法,其特征在于,所述根据所述URL结构信息提取第一特征,包括:
判断URL域名是否为IP地址形式,得到URL的IP地址形式判断结果;
判断URL域名是否是DGA域名,得到URL域名判断结果;
判断所述待测URL是否存在于排名前一百万的域名列表中;
所述第一特征包括:URL的IP地址形式判断结果、URL域名判断结果、待测URL是否存在于排名前一百万的域名列表中。


5.根据权利要求3所述的基于机器学习的钓鱼网站URL检测方法,其特征在于,所述根据所述待测URL提取第二特征,包括:
统计所述待测URL的长度;
统计所述待测URL中特殊字符的个数;
判断所述待测URL中是否存在特殊关键字;
计算所述待测URL中的数字的个数;
计算URL中数字与字母的比例值;
计算URL的熵;
计算URL的KS检验值;
计算URL的KL距离值;
计算URL的欧式距离值;
计算URL中元音与辅音的比例值;
判断URL是否存在HTML实体,得到URL的HTML实体判断结果;
所述第二特征包括:待测URL的长度、待测URL中特殊字符的个数、待测URL中的数字的个数、待测URL中是否存在特殊关键字以及URL中数字与字母的比...

【专利技术属性】
技术研发人员:于金龙王智民王高杰卯路宁
申请(专利权)人:北京六方云信息技术有限公司北京六方云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1