本发明专利技术属于网站识别和锁定技术领域,提供了一种非法网站识别和锁定方法,包括以下步骤:S101:关键词监控和采集,根据神经网络算法建立训练样本;S102:特征词提取;S103:对待识别网站中的关键词进行文本识别;S104:根据匹配概率和相似度,计算待识别网站属于每一类型的概率。本发明专利技术的一种非法网站识别和锁定方法,提高目标锁定的准确度。提高目标锁定的准确度。提高目标锁定的准确度。
【技术实现步骤摘要】
一种非法网站识别和锁定方法
[0001]本专利技术涉及网站识别和锁定
,具体涉及一种非法网站识别和锁定 方法及系统。
技术介绍
[0002]随着互联网的高速发展,网站自身的开放性以及电子支付的普遍性使得网 站安全问题日益突出,通过各类网站平台非法从事多种金融交易的活动增多, 带来了较大的金融和社会风险隐患,涉及的经济犯罪日益增多。网站违法交易 行为性质多样化,当前发现的网络交易违法行为主要集中在网上非法集资和虚 拟货币交易网站等方面。
[0003]这些非法的互联网及移动互联网软件往往具有合法的形式与外观,具有较 强的迷惑性和欺骗性,大大超出了普通网民及互联网金融消费者的辨识能力, 导致互联网经济犯罪大、要案件频发,造成公私财产损失巨大且难以挽回。通 过技术手段主动识别非法的平台软件,促使工作中心前移,及时化解互联网经 济犯罪风险,精准打击互联网经济犯罪显得尤为重要。非法软件识别锁定技术, 就是依托互联网与大数据,总结提炼非法平台软件的表现特征,构建非法网站 软件的识别特征库,采用主动学习算法对其进行自动识别;并采用IP地址识别、 路由跟踪等技术对其进行锁定,以实现涉案线索自动识别与发现,涉案电子数 据的智能锁定,主动、提前进行犯罪防控。
[0004]但是,现有的非法软件识别技术在进行目标锁定时,对非法网站中的信息 提取有局限性,目标锁定的精确度不高。
技术实现思路
[0005]针对现有技术中的缺陷,本专利技术提供的一种非法网站识别和锁定方法,提 高目标锁定的准确度。
[0006]为了解决上述技术问题,本专利技术提供以下技术方案:
[0007]一种非法网站识别和锁定方法,包括以下步骤:
[0008]S101:关键词监控和采集,根据神经网络算法建立训练样本;
[0009]S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf
‑
idf 算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权 重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后, 对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获 取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据, 最后,从样本数据中提取不同非法网站类型的URL信息;
[0010]S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进 行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯 公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关 键词的匹配概率对待识别网站中的关键词进行URL信息对比:通过公式 将待识别网站中第i个URL
信息与非法网站每一类型中第j个URL信息 分别进行相似度计算,得到待识别网站中所有URL信息与非法网站的URL信息 指间的相似度,取相似度最大的前5个相似度计算平均值并归一化,得到待识 别网站与每一类型的非法网站之间的相似度其中,s
i,j
为待识别网站中第i 个URL信息与非法网站每一类型中第j个URL信息的相似度,n为待识别网站中 第i个URL信息与非法网站每一类型中第j个URL信息中匹配的字符数;
[0011]S104:根据匹配概率和相似度计算待识别网站属于每一类型的概 率p
j
,其中,ω1和ω2分别为匹配概率和相似度的权 重值。
[0012]进一步地,所述步骤S102中使用tf
‑
idf算法计算每一类型非法网站中关 键词权重的过程包括:
[0013]S10201:对训练样本中的关键词进行去重,删除停用词和常用词;
[0014]S10202:针对每一非法网站的类型进行关键词重要性tf
i,j
统计,其中, tf
i,j
=n
i,j
/∑
k
n
i,j
,n
i,j
是第i个关键词在文件d
j
中的出现次数,∑
k
n
i,j
是在文件d
j
中 所有关键词的出现次数之和;
[0015]S10203:针对每一非法网站的类型进行关键词普遍重要性idf
i
的统计,其中, [0016]S10204:计算每一个关键词i的重要程度tfidf
i,j
,其中,tfidf
i,j
=tf
i,j
×
idf
i
,将 每一类型中所有关键词的重要程度tfidf
i,j
进行累加,选取权重较大的N个关键词 作为该类型非法网站中的特征词。
[0017]进一步地,所述步骤S102和步骤S103中非法网站的类型包括非法集资和 虚拟货币类型。
[0018]进一步地,所述语料库用于存储包含关键词的文件。
[0019]进一步地,包括监控模块、存储词库、修改模块、分析模块和输出模块,
[0020]所述监控模块用于对网站中的关键词进行检测,将检测到的关键词添加到 存储词库中;
[0021]所述存储词库用于存储网站中的关键词并构建训练样本,对训练样本中的 关键词进行去重,关键词的类别包括理财、众筹、私募、期权、金融创新、网 络借贷、虚拟货币、金融互动和爱心慈善;
[0022]所述修改模块用于对存储词库中的关键词进行增加、修改或删除;
[0023]所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计 算,得到待识别网站属于每一类型的概率;
[0024]所述输出模块用于对待识别网站属于每一类型的概率进行显示。
[0025]由上述技术方案可知,本专利技术的有益效果:首先,通过对非法网站中的特 征词和URL特征进行提取,根据特征词对待识别网站中的关键词进行文本识别, 确定待识别网站中关键词与每一类型的非法网站的关键词的匹配概率,根据 URL特征计算待识别网站中URL信息的相似度,根据匹配概率和相似度,计算 待识别网站属于每一类型的概率,充分考虑特征词和URL特征之间两个方面的 因素,提高待识别网站目标锁定的准确度。
附图说明
[0026]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
[0027]图1为本专利技术的流程图;
[0028]图2为本专利技术步骤S102中使用tf
‑
idf算法计算每一类型非法网站中关键 词权重的流程图;
[0029]图3本专利技术的系统模块图。
具体实施方式
[0030]下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例 仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限 制本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种非法网站识别和锁定方法,其特征在于,包括以下步骤:S101:关键词监控和采集,根据神经网络算法建立训练样本;S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf
‑
idf算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后,对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据,最后,从样本数据中提取不同非法网站类型的URL信息;S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关键词的匹配概率对待识别网站中的关键词进行URL信息对比:通过公式将待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息分别进行相似度计算,得到待识别网站中所有URL信息与非法网站的URL信息指间的相似度,取相似度最大的前5个相似度计算平均值并归一化,得到待识别网站与每一类型的非法网站之间的相似度其中,s
i,j
为待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息的相似度,n为待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息中匹配的字符数;S104:根据匹配概率和相似度计算待识别网站属于每一类型的概率p
j
,其中,ω1和ω2分别为匹配概率和相似度的权重值。2.根据权利要求1所述的一种非法网站识别和锁定方法,其特征在于,所述步骤S102中使用tf
‑
idf算法计算每一类型非法网站中关键词权重的过程包括:S10201:对训练样本中的关键词进行去重,删除停用词和常用词;S10202:针对每一非法网站的类型进行关键词重要性tf
...
【专利技术属性】
技术研发人员:邓昌智,孙桂川,
申请(专利权)人:中科金审北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。