本发明专利技术公开了一种基于社会网络行为特征的邮件分类方法,首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络,再根据不同类型的发件人的特点,计算反映各自行为特点的特征,最后,利用样本训练分类器,得到邮件分类的决策信息。本发明专利技术具有较好扩展性和伸缩性,并且该方法能够进一步应用于在线社交网络中信息的分类。
【技术实现步骤摘要】
本专利技术属于邮件分类
,具体涉及。
技术介绍
垃圾邮件的泛滥严重影响人们的工作和生活。邮件分类是通过一定的技术分辨垃圾邮件和正常邮件,辅助邮件过滤,尽可能减少垃圾邮件的危害,因此,一直吸引着国内外众多学者的研究兴趣。目前,通过研究邮件发信人的发送行为来推测是否为垃圾邮件的分类过滤技术由于具有不需要对信件的全部内容进行扫描,大大提高网关分类过滤垃圾邮件的速度,降低网络资源的负荷和网络流量,而且不会出现侵犯隐私权的法律风险等优点,因此受到研究人员的重视。尽管国内外众多学者已针对邮件分类做了大量的研究工作,但由于垃圾邮件传播方式多变,内容形式多样,数量急剧膨胀,邮件分类的准确率仍然是一个巨大的挑战。
技术实现思路
本专利技术的目的在于提供一种能具有较好扩展性和伸缩性的。本专利技术的技术解决方案是:为了进一步深入研究基于社会网络的邮件分类,我们给出如下形式化定义:定义1:邮件收发社会网络。它是由发件人电子邮件地址集合、收件人电子邮件地址集合和邮件收发关系构成的有向加权图,用G’(V’,E’ )表示,其中V代表所有收发邮件的电子邮件地址的集合,E代表收发关系。如果邮件地址A向邮件地址B发送了邮件,邮件社会网络中就会有一条从A指向B的边,A向B发送的所有邮件的数量代表边的权重。定义2:发件人电子邮件地址-发送邮件时使用的设备的IP地址关系网络(简称发件人邮件地址-1P地址关系网络)。它是由发件人电子邮件地址(V1)和发送邮件时使用的设备的IP地址(V2)构成的二部网络,用G(V,E)表示,其中V=V1 U V2,权利要求1.一种,其特征是:包括下列步骤: (I)预处理邮件收发日志,抽取邮件收发关系网络,使用发件人电子邮件地址-收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储; (2)预处理邮件收发日志,抽取发件人邮件地址-1P地址关系网络,使用发件人电子邮件地址-发送邮件时使用的设备的IP地址的元组将发件人邮件地址-1P地址关系网络以文件的形式进行存储; (3)以步骤(1)、(2)产生的两个元组文件作为输入,并行计算每个电子邮件地址发送的电子邮件数量,接受的电子邮件数量,邮件的回复比例,电子邮件所用的IP地址最大出度,并分别以电子邮件地址-出度-入度-邮件回复比例-1P地址最大出度元组形式储存为中间结果文件; (4)以步骤(3)得到的中间结果元组作为特征,学习分类器最佳的分类面,作为决策信息,分类正常电子邮件用户和垃圾邮件制造者,并由此分类邮件。2.根据权利要求1所述的,其特征是:所述邮件收发关系网络,其构建和处理步骤如下: (I)通过分析邮件收发记录,发现电子邮件收件人和发件人的表达模式,设计针对收件人和发件人电子邮件地址的高效正则表达式; (2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、收件人电子邮件地址和收发关系; (3)将数据存入到发件人电子邮件地址-收件人电子邮件地址元组列表文件中,作为中间文件进行存储。在文件中,将同一个发件人向同一收件人发送的所有邮件存放在一行。3.根据权利要求1或2所述的,其特征是:所述的发件人邮件地址-1P地址关系网络,其构建和处理步骤如下: (1)通过分析邮件收发记录,发现电子邮件发件人和发送邮件时所使用的终端设备的IP地址的表达模式,设计针对收件人电子邮件地址和相应IP地址的高效正则表达式; (2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、发送邮件时所使用的终端设备的IP地址; (3)将数据记录到发件人电子邮件地址-1P地址-发件人在对应IP地址上发送的邮件数量元组列表文件中,作为中间文件进行存储。在文件中,同一个发件人在一个IP地址上发送的邮件汇总后存放在一行。4.根据权利要求1或2所述的,其特征是:所述的基于社会网络的行为特征计算的具体步骤如下: (1)在计算各个电子邮件地址的出度时,以发件人电子邮箱地址作为键,建立出度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次向元组中发件人电子邮件地址对应的哈希项中的值加1,且初始值是O,在所有的元组都处理完后,出度哈希表中每一个哈希项的值就是对应电子邮件地址的出度,将其保存在中间文件中; (2)在计算各个电子邮件地址的入度时,以收件人电子邮箱地址作为键,建立入度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次读取元组中收件人电子邮件地址,并向对应的哈希项中的值加1,且初始值是O,在所有的元组都处理过后,入度哈希表中每一个哈希项的值就是相应电子邮件地址的入度,将其保存在中间文件中; (3)在计算各个电子邮件地址的邮件回复比例时,每个发件人的入度和出度的比值作为回复比例,将其保存在中间文件中; (4)在计算各个电子邮件所用的IP地址最大出度时,以IP地址作为键,建立IP地址出度哈希表,然后逐行读取记录在发件人地址-1P地址关系网络中的发件人电子邮件地址-1P地址-发件人在对应IP地址上发送的邮件数量元组,将元组中发送的邮件数量累加到IP地址对应的哈希项的值上,得到每个IP地址的出度;然后以发件人电子邮件地址为键,建立IP地址最大出度哈希表,再次读取发件人地址-1P地址关系网络中的元组,根据每个元组中的IP地址,在IP地址出度哈希表中得到相应的出度,并与IP地址最大出度哈希表中对应的当前最大出度比较,取较大的出度存回IP地址最大出度哈希表。在所有的元组都处理过后,IP地址最大出度哈希表中每一个哈希项的值就是相应电子邮件地址的所使用的IP地址的最大出度,将其保存在中间文件中; (5)联合上述步骤(I)、(2)、(3)、(4)中得到的行为特征,以发件人电子邮件地址为键,按照电子邮件地址-出度-入度-邮件回复比例-1P地址最大出度元组形式储存为中间结果文件。5.根据权利要求1或2所述的,其特征是:所述的分类邮件的具体步骤如下: (1)读取记录电子邮件地址-出度-入度-邮件回复比例-1P地址最大出度元组的中间结果文件,每个元组作为一行组成一个矩阵,矩阵的每一行作为SVM的一个样本,矩阵的每一列对应一个特征; (2)将得到的样本一部分作为训练样本、一部分作为测试样本,训练和测试分类器,获得最优分类面; (3)以最优分类面作为决策信息分类电子邮件,得到每一个邮件对应的类别标签。全文摘要本专利技术公开了一种,首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络,再根据不同类型的发件人的特点,计算反映各自行为特点的特征,最后,利用样本训练分类器,得到邮件分类的决策信息。本专利技术具有较好扩展性和伸缩性,并且该方法能够进一步应用于在线社交网络中信息的分类。文档编号G06Q10/10GK103198396SQ201310105350公开日2013年7月10日 申请日期2013年3月28日 优先权日2013年3月28日专利技术者施佺, 邵叶秦, 丁卫泽, 施振佺, 陈益均, 陈巧, 李晓丽, 张静 申请人:南通大学本文档来自技高网...
【技术保护点】
一种基于社会网络行为特征的邮件分类方法,其特征是:包括下列步骤:(1)预处理邮件收发日志,抽取邮件收发关系网络,使用发件人电子邮件地址?收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储;??????(2)预处理邮件收发日志,抽取发件人邮件地址?IP地址关系网络,使用发件人电子邮件地址?发送邮件时使用的设备的IP地址的元组将发件人邮件地址?IP地址关系网络以文件的形式进行存储;(3)以步骤(1)、(2)产生的两个元组文件作为输入,并行计算每个电子邮件地址发送的电子邮件数量,接受的电子邮件数量,邮件的回复比例,电子邮件所用的IP地址最大出度,并分别以电子邮件地址?出度?入度?邮件回复比例?IP地址最大出度元组形式储存为中间结果文件;(4)以步骤(3)得到的中间结果元组作为特征,学习分类器最佳的分类面,作为决策信息,分类正常电子邮件用户和垃圾邮件制造者,并由此分类邮件。
【技术特征摘要】
【专利技术属性】
技术研发人员:施佺,邵叶秦,丁卫泽,施振佺,陈益均,陈巧,李晓丽,张静,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。