基于社会网络行为特征的邮件分类方法技术

技术编号：8907443 阅读：145 留言：0更新日期：2013-07-11 05:09

本发明专利技术公开了一种基于社会网络行为特征的邮件分类方法，首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络，再根据不同类型的发件人的特点，计算反映各自行为特点的特征，最后，利用样本训练分类器，得到邮件分类的决策信息。本发明专利技术具有较好扩展性和伸缩性，并且该方法能够进一步应用于在线社交网络中信息的分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于邮件分类
，具体涉及。
技术介绍
垃圾邮件的泛滥严重影响人们的工作和生活。邮件分类是通过一定的技术分辨垃圾邮件和正常邮件，辅助邮件过滤，尽可能减少垃圾邮件的危害，因此，一直吸引着国内外众多学者的研究兴趣。目前，通过研究邮件发信人的发送行为来推测是否为垃圾邮件的分类过滤技术由于具有不需要对信件的全部内容进行扫描，大大提高网关分类过滤垃圾邮件的速度，降低网络资源的负荷和网络流量，而且不会出现侵犯隐私权的法律风险等优点，因此受到研究人员的重视。尽管国内外众多学者已针对邮件分类做了大量的研究工作，但由于垃圾邮件传播方式多变，内容形式多样，数量急剧膨胀，邮件分类的准确率仍然是一个巨大的挑战。
技术实现思路
本专利技术的目的在于提供一种能具有较好扩展性和伸缩性的。本专利技术的技术解决方案是:为了进一步深入研究基于社会网络的邮件分类，我们给出如下形式化定义:定义1:邮件收发社会网络。它是由发件人电子邮件地址集合、收件人电子邮件地址集合和邮件收发关系构成的有向加权图，用G’(V’，E’ )表示，其中V代表所有收发邮件的电子邮件地址的集合，E代表收发关系。如果邮件地址A向邮件地址B发送了邮件，邮件社会网络中就会有一条从A指向B的边，A向B发送的所有邮件的数量代表边的权重。定义2:发件人电子邮件地址-发送邮件时使用的设备的IP地址关系网络(简称发件人邮件地址-1P地址关系网络)。它是由发件人电子邮件地址(V1)和发送邮件时使用的设备的IP地址(V2)构成的二部网络，用G(V，E)表示，其中V=V1 U V2,权利要求1.一种，其特征是:包括下列步骤: (I...

【技术保护点】
一种基于社会网络行为特征的邮件分类方法，其特征是：包括下列步骤：（1）预处理邮件收发日志，抽取邮件收发关系网络，使用发件人电子邮件地址?收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储；??????（2）预处理邮件收发日志，抽取发件人邮件地址?IP地址关系网络，使用发件人电子邮件地址?发送邮件时使用的设备的IP地址的元组将发件人邮件地址?IP地址关系网络以文件的形式进行存储；（3）以步骤（1）、（2）产生的两个元组文件作为输入，并行计算每个电子邮件地址发送的电子邮件数量，接受的电子邮件数量，邮件的回复比例，电子邮件所用的IP地址最大出度，并分别以电子邮件地址?出度?入度?邮件回复比例?IP地址最大出度元组形式储存为中间结果文件；（4）以步骤（3）得到的中间结果元组作为特征，学习分类器最佳的分类面，作为决策信息，分类正常电子邮件用户和垃圾邮件制造者，并由此分类邮件。

【技术特征摘要】

【专利技术属性】
技术研发人员：施佺，邵叶秦，丁卫泽，施振佺，陈益均，陈巧，李晓丽，张静，
申请(专利权)人：南通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人