一种基于用户反馈的垃圾邮件检测方法技术

技术编号:9696960 阅读:110 留言:0更新日期:2014-02-21 05:30
本发明专利技术提出了一种基于用户反馈的垃圾邮件检测方法,该方法首先收集用户反馈信息,用来更新垃圾邮件数据库;然后提取邮件的发件人邮箱号,判断该邮箱号或者它所在邮箱服务器的可信度是否小于某一阈值,若是,则认为该邮件为垃圾邮件;否则,提取邮件内容的签名;通过与数据库中已知垃圾邮件计算汉明距离,若距离小于某一阈值,则认为该邮件为垃圾邮件;否则,认为该邮件为正常邮件;它包括收集用户反馈信息、读取邮件、判断发件人邮箱号是否为垃圾制造者、获取邮件内容签名、检测邮件内容是否为垃圾邮件等步骤。本发明专利技术可提高垃圾邮件的识别范围和准确度,具有识别范围广、准确度高、自学习能力强等特点。

【技术实现步骤摘要】

本专利技术涉及ー种电子邮件的处理方法,特别是涉及ー种基于用户反馈的垃圾邮件检测方法
技术介绍
电子邮件是ー种用电子手段提供信息交換的通信方式,是Internet应用最广泛的服务之一。随着网络电子邮件的日益普及,越来越多的带有广告性质、政治目的和恶意连接的垃圾邮件数量也在急速增长,其中来自个人或者小単位的邮件服务器更成为垃圾邮件的主要来源。垃圾邮件的泛滥不仅给用户造成极大的干扰,带来不友好的用户体验,而且大量的垃圾邮件占用了巨大的网络带宽。目前,针对垃圾邮件的检测已经有了不少相关研究,主要分为基于黑白名单的过滤方法、基于规则的过滤方法和基于内容的过滤方法。这三种方法都是在电子邮件层面对电子邮件的识别处理,对于制造垃圾邮件的个人或小単位的小型邮件服务器没有有效的处理办法,而且都忽视了用户在检测垃圾邮件中的重要作用。而目前垃圾邮件大量存在的事实也说明垃圾邮件处理策略还需要改进。
技术实现思路
本专利技术要解决的技术问题是:提供,以解决现有技术中存在的忽视用户反馈而造成垃圾邮件识别准确度欠缺、识别范围小以及对小型垃圾邮件服务器无力的不足之处。为解决上述技术问题,本专利技术采用的技术方案是:,所述方法包括如下步骤:S1、收集用户反馈信息,更新垃圾邮件数据库;S2、接收邮件:接收全部的邮件数据,分别对每一封邮件处理,转向步骤S3 ;S3、获取发件人邮箱号及所属邮箱服务器,并根据数据库中可信度判断是否为垃圾邮件制造者:根据邮箱服务器预先设定好的可信度阈值e,若是可信度小于e,则转向步骤S6 ;若否,则转向步骤S4,所述可信度阈值0 —般取0.2?0.8 ;S4、获取邮件内容的签名:根据邮件内容的文本特征集,采用SMHASH算法生成该邮件的签名算法的计算公式为:S = SMHASH(MAIL-TEXT),其中SMHASH表示SMHASH算法,MAIL TEXT表示邮件内容中的文本特征集和权重信息,S为输出的64位的邮件签名;S5、检测邮件内容是否为垃圾邮件:根据步骤S4得到的邮件内容签名S,通过与数据库中已知垃圾邮件计算汉明距离,当签名差距小于预先设定好的某ー阈值U吋,则认为当前邮件与已知垃圾邮件相似,从而断定其为垃圾邮件;否则,认为当前邮件为正常邮件,所述U —般取3 ;S6、处理邮件:根据前面步骤的判断,如果当前邮件为垃圾邮件,则根据收件人预先设定好的策略进行处理;如果为正常邮件,则将其放入收件箱未读邮件中。本专利技术的再进ー步技术方案是:所述的步骤S1、收集用户反馈信息包括如下步骤:S1.1、用户登录邮箱,记录用户对每封邮件的操作日志;S1.2、判断用户对未读邮件的操作:当用户登录邮箱后,监听用户的操作,如果用户打开了未读邮件,则期待用户的后续操作,转向步骤S1.3:如果用户删除了未读邮件,则认为该邮件为垃圾邮件,转向步骤S1.7:S1.3、用户是否评级:如果用户对邮件进行评级,则转向步骤S1.4 ;否则,则转向步骤S1.5 ;S1.4、用户评级处理:如果用户给与邮件差评,则认为是垃圾邮件,转入步骤S1.7 ;否则,认为是正常邮件,转入步骤S1.6 ;S1.5、根据用户对该邮件的操作响应判断是否为垃圾邮件:检查当前邮件的操作日志,如果发现操作顺序为“打开、查阅时间过短、删除”,则认为当前邮件为垃圾邮件;否则,则认为当前邮件为正常邮件;所述操作“查阅时间”是指查阅时间t小于预先设定好的阈值小,所述查阅时间t是指用户打开邮件并且活动窗ロ为邮件所在窗ロ所持续的时间,所述小一般取0.1ms?2s:S1.6、正常邮件处理:检索垃圾邮件数据库,查看该邮件是否存在数据库中,如果存在,好评数增加1,分别重新计算该邮件发件人、邮箱服务器和邮件内容的可信度b ;否则,则结束。所述可信度b的计算公式为:b = good/total,其中good为好评数,total为好评数与差评数的总和。S1.7、垃圾邮件处理:检索垃圾邮件数据库,查看该邮件是否存在数据库中,如果存在,差评数增加1,分别重新计算该邮件发件人、邮箱服务器和邮件内容的可信度b ;否则,则在垃圾邮件数据库中添加该邮件的信息。作为本专利技术的一种优选方案,垃圾邮件数据库中的信息包含有:垃圾邮件发件人、垃圾邮件邮箱服务器、垃圾邮件内容签名以及它们各自的可信度。作为本专利技术的一种优选方案,垃圾邮件数据库应能够在可信邮件提供商间共享。作为本专利技术的一种优选方案,垃圾邮件数据库的更新方式应包括本地收集用户反馈的自我更新方式和从信任邮件服务器获取数据的更新方式。作为本专利技术的一种优选方案,用户反馈包括用户对邮件评级、打开邮件、查阅邮件时间和删除邮件操作。作为本专利技术的一种优选方案,用户预先设定的策略应包括拒收垃圾邮件和设置用户预设可信度。作为本专利技术的一种优选方案,用户操作日志记录的操作包括打开邮件、查阅时间和删除邮件。本专利技术的有益效果在干:本专利技术提出的基于用户反馈的垃圾邮件检测方法,保障了用户反映在垃圾邮件检测中重要的积极作用,能够准确的检测出垃圾邮件,识别范围广,并且能够识别出小型垃圾邮件服务器,从而在服务器层面抵制垃圾邮件,更加高效。【附图说明】图1为本专利技术提供的基于用户反馈的垃圾邮件检测方法流程图;图2为本专利技术提供的收集用户反馈信息流程图;【具体实施方式】下面结合附图详细说明本专利技术,其作为本说明书的一部分,通过实施例来说明本专利技术的原理,本专利技术的其他方面,特征及其优点通过该详细说明将会变得一目了然。本专利技术提供的基于用户反馈的垃圾邮件检测方法的具体步骤(參见图1)如下:S1、收集用户反馈信息,更新垃圾邮件数据库;S2、接收邮件:接收全部的邮件数据,分别对每一封邮件处理,转向步骤S3 ;S3、获取发件人邮箱号及所属邮箱服务器,并根据数据库中可信度判断是否为垃圾邮件制造者:根据邮箱服务器预先设定好的可信度阈值e,若是可信度小于e,则转向步骤S6 ;若否,则转向步骤S4,所述可信度阈值0 —般取0.2?0.8 ;S4、获取邮件内容的签名:根据邮件内容的文本特征集,采用SMHASH算法生成该邮件的签名;所述SMHASH算法的计算公式为:S = SMHASH(MAIL_TEXT),其中 SMHASH 表示 SMHASH算法,MAIL_TEXT表示邮件内容中的文本特征集和权重信息,S为输出的64位的邮件签名;S5、检测邮件内容是否为垃圾邮件:根据步骤S4得到的邮件内容签名S,通过与数据库中已知垃圾邮件计算汉明距离,当签名差距小于预先设定好的某ー阈值U吋,则认为当前邮件与已知垃圾邮件相似,从而断定其为垃圾邮件;否则,认为当前邮件为正常邮件,所述U-般取3 ;S6、处理邮件:根据前面步骤的判断,如果当前邮件为垃圾邮件,则根据收件人预先设定好的策略进行处理;如果为正常邮件,则将其放入收件箱未读邮件中。上述的步骤S1、收集用户反馈信息包括如下步骤(參见图2):S1.1、用户登录邮箱,记录用户对每封邮件的操作日志;S1.2、判断用户对未读邮件的操作:当用户登录邮箱后,监听用户的操作,如果用户打开了未读邮件,则期待用户的后续操作,转向步骤S1.3:如果用户删除了未读邮件,则认为该邮件为垃圾邮件,转向步骤S1.7 ;S1.3、用户是否评级:如果用户对邮件进行评级,则转向步骤S1.4 ;否则,则转向步骤S1.5 本文档来自技高网...

【技术保护点】
一种基于用户反馈的垃圾邮件检测方法,其特征在于,该方法包括如下步骤:S1、收集用户反馈信息,更新垃圾邮件数据库;S2、接收邮件:接收全部的邮件数据,分别对每一封邮件处理,转向步骤S3;S3、获取发件人邮箱号及所属邮箱服务器,并根据数据库中可信度判断是否为垃圾邮件制造者:根据邮箱服务器预先设定好的可信度阈值θ,若是可信度小于θ,则转向步骤S6;若否,则转向步骤S4,所述可信度阈值θ一般取0.2~0.8;S4、获取邮件内容的签名:根据邮件内容的文本特征集,采用SIMHASH算法生成该邮件的签名;所述SIMHASH算法的计算公式为:S=SIMHASH(MAIL_TEXT),其中SIMHASH表示SIMHASH算法,MAIL?TEXT表示邮件内容中的文本特征集和权重信息,S为输出的64位的邮件签名;S5、检测邮件内容是否为垃圾邮件:根据步骤S4得到的邮件内容签名S,通过与数据库中已知垃圾邮件计算汉明距离,当签名差距小于预先设定好的某一阈值μ时,则认为当前邮件与已知垃圾邮件相似,从而断定其为垃圾邮件;否则,认为当前邮件为正常邮件,所述μ一般取3;S6、处理邮件:根据前面步骤的判断,如果当前邮件为垃圾邮件,则根据收件人预先设定好的策略进行处理;如果为正常邮件,则将其放入收件箱未读邮件中。...

【技术特征摘要】
1.一种基于用户反馈的垃圾邮件检测方法,其特征在于,该方法包括如下步骤: 51、收集用户反馈信息,更新垃圾邮件数据库; 52、接收邮件:接收全部的邮件数据,分别对每一封邮件处理,转向步骤S3; 53、获取发件人邮箱号及所属邮箱服务器,并根据数据库中可信度判断是否为垃圾邮件制造者: 根据邮箱服务器预先设定好的可信度阈值e,若是可信度小于0,则转向步骤36;若否,则转向步骤S4,所述可信度阈值0 —般取0.2~0.8; 54、获取邮件内容的签名: 根据邮件内容的文本特征集,采用SMHASH算法生成该邮件的签名;所述SMHASH算法的计算公式为:S = SMHASH(MAIL_TEXT),其中 SMHASH 表示 SMHASH 算法,MAIL-TEXT 表示邮件内容中的文本特征集和权重信息,S为输出的64位的邮件签名; 55、检测邮件内各是否为垃圾邮件: 根据步骤S4得到的邮 件内容签名S,通过与数据库中已知垃圾邮件计算汉明距离,当签名差距小于预先设定好的某ー阈值U吋,则认为当前邮件与已知垃圾邮件相似,从而断定其为垃圾邮件;否则,认为当前邮件为正常邮件,所述U —般取3; 56、处理邮件: 根据前面步骤的判断,如果当前邮件为垃圾邮件,则根据收件人预先设定好的策略进行处理;如果为正常邮件,则将其放入收件箱未读邮件中。2.根据权利要求1所述的基于用户反馈的垃圾邮件检测方法,其特征在于,所述的步骤S1、收集用户反馈信息包括如下步骤: S1.1、用户登录邮箱,记录用户对每封邮件的操作日志; S1.2、判断用户对未读邮件的操作: 当用户登录邮箱后,监听用户的操作,如果用户打开了未读邮件,则期待用户的后续操作,转向步骤S1.3:如果用户删除了未读邮件,则认为该邮件为垃圾邮件,转向步骤S1.7 ; S1.3、用户是否评级: 如果用户对邮件进行评级,则转向步骤S1.4 ;否则,则转向步骤S1.5 ; S1.4、用户评级处理: 如果用户给与邮件差评,则认为是垃圾邮件,转入步骤S1.7;否则,认为是正常邮...

【专利技术属性】
技术研发人员:李朋飞崔可想耿振民杨磊戴伟强
申请(专利权)人:无锡华御信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1