URL的合法性识别方法及装置制造方法及图纸

技术编号:13051971 阅读:52 留言:0更新日期:2016-03-23 16:38
本发明专利技术提供一种URL的合法性识别方法及装置。本发明专利技术实施例通过获取待识别URL,进而根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,计算所述待识别URL与所述比对对象之间的相似度,使得能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及安全技术,尤其涉及一种URL的合法性识别方法及装置。【
技术介绍
】随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用(AppliCat1n,APP)。有些应用中会涉及接收发送方预先编辑的信息的功能,例如,短消息、彩信或电子邮件等。这些信息中,可能会包含一对象的统一资源定位符(Uniform Resource Locator,URL),终端则可以直接根据所述URL,执行相应操作。例如,访问所述URL对应的目标对象,或者,再例如,根据用户点击所述URL的操作信息,访问所述URL对应的目标对象。然而,由于信息生成的随意性,不法分子可以很容易将不安全对象例如,病毒、木马等植入信息,即将不安全对象的URL写在信息中,因此,终端在获得信息中所包含的URL之后,很可能会访问不安全对象,会使得终端及其用户受到不同程度的破坏,从而导致了信息处理的安全性的降低。【
技术实现思路
】本专利技术的多个方面提供一种URL的合法性识别方法及装置,用以提高信息处理的安全性。本专利技术的一方面,提供一种URL的合法性识别方法,包括:获取待识别URL ;根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;计算所述待识别URL与所述比对对象之间的相似度;根据所述相似度,识别所述待识别URL的合法性。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,包括:根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象之前,还包括:采集至少一个合法URL ;利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果,包括:根据所述每个合法URL,获得所述每个合法URL的域名;删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述相似度,识别所述待识别URL的合法性,包括:若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL ;或者若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL ;或者若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL ;或者若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL ;所述第二阈值小于所述第一阈值;或者若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述相似度,识别所述待识别URL的合法性之前,还包括:利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述相似度,识别所述待识别URL的合法性之后,包括:向终端发送所述识别的结果,以使得所述终端展示所述识别的结果;和/或所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。本专利技术的另一方面,提供一种URL的合法性识别装置,包括:获取单元,用于获取待识别URL ;匹配单元,用于根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;计算单元,用于计算所述待识别URL与所述比对对象之间的相似度;识别单元,用于根据所述相似度,识别所述待识别URL的合法性。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述匹配单元,具体用于根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括预处理单元,用于 采集至少一个合法URL ;利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;以及根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述预处理单元,具体用于根据所述每个合法URL,获得所述每个合法URL的域名;删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;以及利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,具体用于若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL ;或者若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL ;或者若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL ;或者若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL ;所述第二阈值小于所述第一阈值;或者若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,还用于利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;以及根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,还用于向终端发送所述识别的结果,以使得所述终端展示所述识别的结果;和/或所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。由上述技术方案可知,本专利技术实施例通过获取待识别URL,进而根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,计算所述待识别URL与所述比对对象之间的相似度,使得能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。另外,采用本专利技术所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效提高信息处理的效率和实时性。另外,采用本专利技术所提供的技术方案,无需对待识别U本文档来自技高网...

【技术保护点】
一种URL的合法性识别方法,其特征在于,包括:获取待识别URL;根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;计算所述待识别URL与所述比对对象之间的相似度;根据所述相似度,识别所述待识别URL的合法性。

【技术特征摘要】

【专利技术属性】
技术研发人员:王巍巍彭程黄庆伟张军宏罗雪峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1