一种基于用户反馈的垃圾邮件检测方法技术

技术编号：9696960 阅读：117 留言：0更新日期：2014-02-21 05:30

本发明专利技术提出了一种基于用户反馈的垃圾邮件检测方法，该方法首先收集用户反馈信息，用来更新垃圾邮件数据库；然后提取邮件的发件人邮箱号，判断该邮箱号或者它所在邮箱服务器的可信度是否小于某一阈值，若是，则认为该邮件为垃圾邮件；否则，提取邮件内容的签名；通过与数据库中已知垃圾邮件计算汉明距离，若距离小于某一阈值，则认为该邮件为垃圾邮件；否则，认为该邮件为正常邮件；它包括收集用户反馈信息、读取邮件、判断发件人邮箱号是否为垃圾制造者、获取邮件内容签名、检测邮件内容是否为垃圾邮件等步骤。本发明专利技术可提高垃圾邮件的识别范围和准确度，具有识别范围广、准确度高、自学习能力强等特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及ー种电子邮件的处理方法，特别是涉及ー种基于用户反馈的垃圾邮件检测方法。
技术介绍
电子邮件是ー种用电子手段提供信息交換的通信方式，是Internet应用最广泛的服务之一。随着网络电子邮件的日益普及，越来越多的带有广告性质、政治目的和恶意连接的垃圾邮件数量也在急速增长，其中来自个人或者小単位的邮件服务器更成为垃圾邮件的主要来源。垃圾邮件的泛滥不仅给用户造成极大的干扰，带来不友好的用户体验，而且大量的垃圾邮件占用了巨大的网络带宽。目前，针对垃圾邮件的检测已经有了不少相关研究，主要分为基于黑白名单的过滤方法、基于规则的过滤方法和基于内容的过滤方法。这三种方法都是在电子邮件层面对电子邮件的识别处理，对于制造垃圾邮件的个人或小単位的小型邮件服务器没有有效的处理办法，而且都忽视了用户在检测垃圾邮件中的重要作用。而目前垃圾邮件大量存在的事实也说明垃圾邮件处理策略还需要改进。
技术实现思路
本专利技术要解决的技术问题是:提供，以解决现有技术中存在的忽视用户反馈而造成垃圾邮件识别准确度欠缺、识别范围小以及对小型垃圾邮件服务器无力的不足之处。为解决上述技术问题，本专利技术采用的技术方案是:，所述方法包括如下步骤:S1、收集用户反馈信息，更新垃圾邮件数据库；S2、接收邮件:接收全部的邮件数据，分别对每一封邮件处理，转向步骤S3 ；S3、获取发件人邮箱号及所属邮箱服务器，并根据数据库中可信度判断是否为垃圾邮件制造者:根据邮箱服务器预先设定好的可信度阈值e，若是可信度小于e，则转向步骤S6 ;若否，则转向步骤S4，所述可信度阈值0 —般取0.2?0.8 ;S...

【技术保护点】
一种基于用户反馈的垃圾邮件检测方法，其特征在于，该方法包括如下步骤：S1、收集用户反馈信息，更新垃圾邮件数据库；S2、接收邮件：接收全部的邮件数据，分别对每一封邮件处理，转向步骤S3；S3、获取发件人邮箱号及所属邮箱服务器，并根据数据库中可信度判断是否为垃圾邮件制造者：根据邮箱服务器预先设定好的可信度阈值θ，若是可信度小于θ，则转向步骤S6；若否，则转向步骤S4，所述可信度阈值θ一般取0.2～0.8；S4、获取邮件内容的签名：根据邮件内容的文本特征集，采用SIMHASH算法生成该邮件的签名；所述SIMHASH算法的计算公式为：S＝SIMHASH(MAIL_TEXT)，其中SIMHASH表示SIMHASH算法，MAIL?TEXT表示邮件内容中的文本特征集和权重信息，S为输出的64位的邮件签名；S5、检测邮件内容是否为垃圾邮件：根据步骤S4得到的邮件内容签名S，通过与数据库中已知垃圾邮件计算汉明距离，当签名差距小于预先设定好的某一阈值μ时，则认为当前邮件与已知垃圾邮件相似，从而断定其为垃圾邮件；否则，认为当前邮件为正常邮件，所述μ一般取3；S6、处理邮件：根据前面步骤的判断，如果当前邮件为...

【技术特征摘要】
1.一种基于用户反馈的垃圾邮件检测方法，其特征在于，该方法包括如下步骤: 51、收集用户反馈信息，更新垃圾邮件数据库； 52、接收邮件:接收全部的邮件数据，分别对每一封邮件处理，转向步骤S3； 53、获取发件人邮箱号及所属邮箱服务器，并根据数据库中可信度判断是否为垃圾邮件制造者: 根据邮箱服务器预先设定好的可信度阈值e，若是可信度小于0，则转向步骤36;若否，则转向步骤S4，所述可信度阈值0 —般取0.2~0.8; 54、获取邮件内容的签名: 根据邮件内容的文本特征集，采用SMHASH算法生成该邮件的签名；所述SMHASH算法的计算公式为:S = SMHASH(MAIL_TEXT)，其中 SMHASH 表示 SMHASH 算法，MAIL-TEXT 表示邮件内容中的文本特征集和权重信息，S为输出的64位的邮件签名； 55、检测邮件内各是否为垃圾邮件: 根据步骤S4得到的邮件内容签名S，通过与数据库中已知垃圾邮件计算汉明距离，当签名差距小于预先设定好的某ー阈值U吋，则认为当前邮件与已知垃圾邮件相似，从而断定其为垃圾邮件；否则，认为当前邮件为正常邮件，所述U —般取3; 56、处理邮件: 根据前面步骤的判断，如果当前邮件为垃圾邮件，则根据收件人预先设定好的策略进行处理；如果为正常邮件，则将其放入收件箱未读邮件中。2.根据权利要求1所述的基于用户反馈的垃圾邮件检测方法，其特征在于，所述的步骤S1、收集用户反馈信息包括如下步骤: S1.1、用户登录邮箱，记录用户对每封邮件的操作日志； S1.2、判断用户对未读邮件的操作: 当用户登录邮箱后，监听用户的操作，如果用户打开了未读邮件，则期待用户的后续操作，转向步骤S1.3:如果用户删除了未读邮件，则认为该邮件为垃圾邮件，转向步骤S1.7 ; S1.3、用户是否评级: 如果用户对邮件进行评级，则转向步骤S1.4 ;否则，则转向步骤S1.5 ； S1.4、用户评级处理: 如果用户给与邮件差评，则认为是垃圾邮件，转入步骤S1.7;否则，认为是正常邮...

【专利技术属性】
技术研发人员：李朋飞，崔可想，耿振民，杨磊，戴伟强，
申请(专利权)人：无锡华御信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人