一种多层次的垃圾邮件智能过滤方法技术

技术编号:6884180 阅读:311 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种多层次的垃圾邮件智能过滤方法,该方法利用特征项的分布信息改进了传统的信息增益算法,减小了系统训练过程中对数据的依赖,从而提高了系统对邮件内容的分析能力;降低了正常邮件的误判率,解决了邮件内容语义信息丢失的问题;针对垃圾邮件过滤过程正常邮件误判的问题提出了基于加权支持向量机分类方法,该方法增加了两类邮件类别权重及反映每封邮件重要性的权重,然后利用支持向量机分类器进行训练,得到垃圾邮件过滤器。本发明专利技术集合IP地址和DNS黑名单、对主题和附件的关键词过滤、邮件正文内容过滤以及附件文本内容过滤等多种过滤技术,构建了一个多层次垃圾邮件智能过滤平台。

【技术实现步骤摘要】

本专利技术属于信息
,涉及垃圾邮件的分类与过滤,尤其涉及。
技术介绍
随着互联网的发展普及,电子邮件给人们的工作生活带来了极大的便利,与此同时不请自来的垃圾邮件也给人们产生了极大的困扰。垃圾邮件的泛滥不仅占用大量的带宽,严重浪费了网络资源,垃圾邮件也正成为黑客攻击的目标、病毒传播的途径,由此带来极大的安全隐患。目前对于垃圾邮件的定义世界上仍没有一个统一的明确的定义,尽管通常将垃圾邮件定义为Unsolicited Bulk Email (UBE,未被请求的批量邮件)或Unsolicited Commercial Email (UCE,未被请求的商业邮件),这是因为同样的邮件对于不同的用户来说其判断结果可能不同,也正是这种原因决定了市面上的大多垃圾邮件过滤工具效率低下。解决垃圾邮件泛滥的历程,大致可分为如下三个阶段(1)第一阶段主要是通过IP过滤、黑白名单、关键词匹配等进行垃圾邮件判断。(2)第二阶段主要是通过基于一些诸如贝叶斯等统计算法的智能内容过滤及实时黑名单过滤等机制来完成垃圾邮件的判断。(3)第三主要是对垃圾邮件的发送行为进行统计而发展起来的。这种方式首先对大量的垃圾邮件样本进行统计、分析和计算,然后根据RFC822协议建立垃圾邮件发送行为的识别模型。从而在邮件传输代理(MTA)通信阶段就能判断出该邮件是否为垃圾邮件。这种方式有效的提高了邮件过滤的速度,减少了网络延迟,然而这种基于网络行为特征的邮件过滤对于单一的垃圾邮件处理却显得无能为力。总的来说当前垃圾邮件过滤系统中存在如下几点问题(1)正常邮件误判问题对于用户来讲,正常邮件通常情况下是极其重要的,大多用户宁愿把所有邮件都通读一遍也不愿过滤掉一份正常邮件。因此,对垃圾邮件过滤系统而言,重点考虑的不是一个查全的问题,而应是查准的问题。而目前大多邮件过滤系统过多的考虑了查全的问题,而过滤级别也多是IP或动态IP级,造成了对用户正常邮件的误判。(2)语义信息丢失问题目前的过滤系统却多专注于IP地址过滤及邮件的统计特性,却忽略了对邮件语义信息的挖掘。然而垃圾邮件常常被伪装为正常邮件,只有解析其内容时才能判定其合法性,在这种情形下,仅靠单一的IP地址过滤及统计特性是难以获得满意效果的。因此有必要对邮件的语义信息进行挖掘,从而提高邮件过滤系统的精确度。(3)缺乏垃圾邮件过滤整体解决方案由于问题⑴、⑵可知,仅靠一种技术手段是难以取得满意的过滤效果的。因此, 有必要把各种技术手段加以整合,充分发挥各种过滤技术的长处,以避免单一技术的局限性。而这种全局的过滤解决方案却正是目前邮件过滤系统所缺失的。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供,其目的在于降低正常邮件的误判率,解决邮件内容语义信息丢失的问题,从而统领全局,构建了一个完善的垃圾邮件过滤系统。为了实现上述目的,本专利技术采用如下技术方案,该方法的过滤步骤如下Stepl 邮件服务器监听端口,根据端口判断是smtp协议还是pop3协议;St印2 如是smtp协议则转入st印3继续执行;如是pop3协议则转入pop3协议处理模块进行处理;St印3 转入smtp协议接收模块,并提取邮件的相关信息;乂印4:对于提取的邮件信息,首先进行黑白名单过滤,如在黑名单内则进行丢弃, 反之转入st印5继续执行;St印5 然后根据邮件关键词进行过滤;St印6 其次对邮件内容进行判定,根据判定结果进行处理;如是垃圾邮件则进行丢弃,反之转入st印7继续执行;St印7 判断是目的邮箱还是本地邮箱,如是本地邮箱则进入本地邮箱投递及邮件管理,反之则进行转发。所述step4中,进行黑白名单过滤的过程如下首先对邮件的IP地址进行初步过滤,如IP地址在白名单内,则判定为合法邮件进行接收,反之判断IP地址是否在黑名单内, 如在则判定为垃圾邮件,且进行丢弃,反之对DNS地址进行匹配,如与DNS白名单匹配成功则判定为合法邮件进行接收,反之与DNS黑名单进行匹配,如匹配成功,则判定为垃圾邮件进行丢弃,反之对邮件主题关键词进行匹配。所述step6中,对邮件内容进行判定的过程如下步骤1 首先提取出邮件正文部分,并对邮件正文进行切词;步骤2 对切词结果进行预处理;步骤3 对预处理后的邮件进行特征选择;步骤4 对提取的特征利用支持向量机SVM进行分类;St印5 对分类结果进行判定,如是合法邮件则进行接收,如疑似垃圾邮件则进行投递并需要用户进行信息反馈,如是垃圾邮件则进行丢弃。所述预处理的过程如下首先对切分结果进行语义还原,其主要是对切分结果利用规则的方法进行重新组织,提取基本短语和未登录词;然后采用停用词表示与词性标注相结合的方法去除那些高频词与低频词。所述利用支持向量机SVM进行分类的过程如下(1)提取邮件文本特征;(2)计算各特征的特征类别的相关性度量;(3)利用词序列核作为核发函数训练支持向量机;(4)利用类别相关度量计算词的衰减因子;(5)对邮件进行分类。本专利技术的有益效果1.本专利技术改进了传统特征选择中的信息增益算法在数据训练的过程多以平衡语料为基础,而在真实环境中,语料平衡的情形却是难以存的。而垃圾邮过滤其实质又是一个二分类问题,因此,整个过滤的结果对语料的平衡性有着较强的依赖。针对这一情形,本专利技术利用特征项的分布信息改进了传统的信息增益算法,减小了系统训练过程中对数据的依赖,从而提高了系统对邮件内容的分析能力。2.本专利技术构造了一种适合于垃圾邮件过滤的文本语义表示模型传统的向量空间模型是以各特征项之间相互独立的假设为前提,因而该模型忽视了信息间的语义联系,这使得过滤过程中存在机械性缺陷,因此,把自然语言处理技术引入到向量空间模型中,并对各特征项间的相互加以组织梳理,使能够体现过滤本文特征词之间的相互联系,提高过滤的精确度。3.本专利技术提出了一种基于加权支持向量机的垃圾邮件过滤方法基于加权支持向量机的垃圾邮件过滤方法,主要是针对垃圾邮件过滤过程正常邮件误判的问题而提出。该方法增加了两类邮件类别权重及反映每封邮件重要性的权重,然后利用支持向量机分类器进行训练,得到垃圾邮件过滤器。4.本专利技术提出了一种基于类别相关度量的词序列核利用支持向量机进行分类,常常忽略文本结构而导致丢失大量语义信息丢失。针对这一现象,本专利技术提出一种基于类别相关度量的词序列核。实施步骤如下(1)提取邮件文本特征。(2)计算各特征的特征类别的相关性度量。(3)利用词序列核作为核发函数训练支持向量机。(4)利用类别相关度量计算词的衰减因子(5)对邮件进行分类。5.本专利技术把反馈和自学习机制引入到垃圾邮件过滤模板中由于邮件内容是动态变化的,因此训练本也应该随着系统的运行而不断更新。由于不同的训练样本对邮件过滤系统的贡献度有所不同,因此应给样本空间中的各样本赋予一定的权重,并在整个过滤过程中根据过滤效果动态调整样本权重。这样做的目的可以有效的保留对系统贡献大的样本,并降低某些贡献度低的样本带来的干扰。6.本专利技术最终搭建了一个多层次的垃圾邮件智能过滤平台。本专利技术集合IP地址和DNS黑名单、对主题和附件的关键词过滤、邮件正文内容过滤以及附件文本内容过滤等多种过滤技术,构建了一个多层次垃圾邮件智能过滤平台。附图说明图1是本专利技术的过滤方法流程图;图2是基于内容的垃圾邮件过滤流程图;图本文档来自技高网
...

【技术保护点】
1.一种多层次的垃圾邮件智能过滤方法,其特征是,该方法的过滤步骤如下:Step1:邮件服务器监听端口,根据端口判断是smtp协议还是pop3协议;Step2: 如是smtp协议则转入step3继续执行;如是pop3协议则转入pop3协议处理模块进行处理;Step3:转入smtp协议接收模块,并提取邮件的相关信息;Step4:对于提取的邮件信息,首先进行黑白名单过滤,如在黑名单内则进行丢弃,反之转入step5继续执行;Step5:然后根据邮件关键词进行过滤;Step6:其次对邮件内容进行判定,根据判定结果进行处理;如是垃圾邮件则进行丢弃,反之转入step7继续执行;Step7:判断是目的邮箱还是本地邮箱,如是本地邮箱则进入本地邮箱投递及邮件管理,反之则进行转发。

【技术特征摘要】
1.一种多层次的垃圾邮件智能过滤方法,其特征是,该方法的过滤步骤如下 Stepl 邮件服务器监听端口,根据端口判断是smtp协议还是pop3协议;St印2 如是smtp协议则转入st印3继续执行;如是pop3协议则转入pop3协议处理模块进行处理;St印3 转入smtp协议接收模块,并提取邮件的相关信息;Mep4:对于提取的邮件信息,首先进行黑白名单过滤,如在黑名单内则进行丢弃,反之转入st印5继续执行;Step5:然后根据邮件关键词进行过滤;St印6 其次对邮件内容进行判定,根据判定结果进行处理;如是垃圾邮件则进行丢弃,反之转入st印7继续执行;St印7 判断是目的邮箱还是本地邮箱,如是本地邮箱则进入本地邮箱投递及邮件管理,反之则进行转发。2.如权利要求书1所述的一种多层次的垃圾邮件智能过滤方法,其特征是,所述step4 中,进行黑白名单过滤的过程如下首先对邮件的IP地址进行初步过滤,如IP地址在白名单内,则判定为合法邮件进行接收,反之判断IP地址是否在黑名单内,如在则判定为垃圾邮件,且进行丢弃,反之对DNS地址进行匹配,如与DNS白名单匹配成功则判定为合法邮件进行接收,反之与DNS黑名单进行匹配...

【专利技术属性】
技术研发人员:刘培玉朱振方杨玉珍
申请(专利权)人:山东师范大学
类型:发明
国别省市:88

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1