本发明专利技术公开了一种对图像型垃圾邮件进行过滤的方法及装置,通过WAF模型对邮件图像中识别出的关键词进行关键词重构,并基于重构后的关键词对邮件进行判断和过滤,从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
【技术实现步骤摘要】
本专利技术设及通信
,尤其设及一种对图像型垃圾邮件进行过滤的方法及装 置。
技术介绍
目前,基于文本规则的垃圾邮件过滤技术已经取得了成功的应用。在图像领域,研 究者们提出了各种基于数字图像处理技术的方案进行图像过滤,并取得了一定效果。其中, 主要有:基于图像近似特征的过滤技术、基于图像文本区域的过滤技术W及基于图像本身 特征的过滤技术, 虽然上述方法能够达到一定效果,但是其原理都是从分析图像浅层特征出发,容 易误断一些含公文扫描图像W及包含文本信息的宣传图像的正常公务邮件。
技术实现思路
鉴于上述的分析,本专利技术旨在提供一种对图像型垃圾邮件进行过滤的方法及装 置,用W解决现有技术中基于图像过滤垃圾邮件准确率低的问题。 为解决上述问题,本专利技术主要是通过W下技术方案实现的: 本专利技术一方面提供了一种对图像型垃圾邮件进行过滤的方法,该方法包括: 通过WAF模型对邮件图像中识别出的关键词进行关键词重构; 基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮 件进行过滤。 优选地,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤 具体包括: 通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的 亲密度之和,当亲密度之和的值超过预设的阔值时,则确定没有被识别的字与其相邻的已 识别的字构成关键词。 优选地,通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关 键词的亲密度之和的步骤具体包括: 通过WAF模型计算关键字之间的亲密度; 根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设 的关键词的亲密度之和。 优选地,计算关键字与关键词的亲密度的步骤具体包括: 根据词激活力公式W唤.= (./;,/乂 )*(.4././;)/<计算各个关键词之间的连接紧密 度,并通过亲密度矩阵计算各个关键词之间 亲密度之和; 其中,fi为关键字i出现的频率,fu为关键字i和关键字j一起出现的频率,du 为两个关键字一起出现时的平均距离,Ku= (k|afki〉〇orafkj〉〇},Lu= (l|afii〉0or afij〉0},0R(x,y) =min(x,y)/max(x,y),K。.为关键词i、j相同的前向关键词k的集合,L。 为关键词i、j相同后向关键词1的集合。 优选地,所述基于重构后的关键词对邮件进行检测,当确定所述邮件是垃圾邮件 后,对所述邮件进行过滤的步骤具体包括: 对已经识别出的和重构后的关键字和关键词设置权重,并进行计算,当计算的结 果超过预设的阔值后,则确定所述邮件是垃圾邮件,对所述邮件进行过滤。 优选地,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤 之前,还包括: 过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字。 优选地,所述过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识 别出关键字的步骤具体包括: 通过计算LMM模型增强文字区域和背景区域的区分度,并通过Qs化获取全局阔 值,过滤掉复杂背景,检测出文本对比度高的像素区域;[002引对文本对比度高的像素区域进行识别,识别出关键字。 本专利技术再一方面提供了一种对图像型垃圾邮件进行过滤的装置,该装置包括: 重构单元,用于通过WAF模型对邮件图像中识别出的关键词进行关键词重构; 过滤单元,用于基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮 件后,对所述邮件进行过滤。 优选地,所述重构单元具体用于,通过WAF模型计算没有被识别的字与其相邻的 已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阔值时,则确 定没有被识别的字与其相邻的已识别的字构成关键词。 优选地,所述重构单元具体用于,根据词激活力公式%部.=(./;./'乂)*(馬//;)/考计 算各个关键词之间的连接紧密度,并通过亲密度矩阵计算各个关键词之间亲密度之和;其中,为关键字i出现的频率,fU为关键字i和关键字j一起出现的频率,dy为两个关键字一起出现时的平均距离,Ku= (k|afki〉〇or afw〉0}, Lu= (l|afii〉0 or afij〉0},0R(x,y) =111;13又片7),1(。为关键词;[0相同的前向 关键词k的集合,Lu为关键词i、j相同后向关键词1的集合。 本专利技术有益效果如下; 本专利技术提供的一种对图像型垃圾邮件进行过滤的方法及装置,通过WAF模型对邮 件图像中识别出的关键词进行关键词重构,并基于重构后的关键词对邮件进行判断和过 滤,从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。 本专利技术的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得 显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、 权利要求书、W及附图中所特别指出的结构来实现和获得。【附图说明】 图1为本专利技术实施例的一种对图像型垃圾邮件进行过滤的方法的流程图; 图2为本专利技术实施例的文本区域与识别的关键字的示意图; 图3为本专利技术实施例的计算亲密度之和的流程示意图; 图4为本专利技术实施例的一种对图像型垃圾邮件进行过滤的装置的结构示意图。【具体实施方式】 下面结合附图来具体描述本专利技术的优选实施例,其中,附图构成本申请一部分,并 与本专利技术的实施例一起用于阐释本专利技术的原理。为了清楚和简化目的,当其可能使本专利技术 的主题模糊不清时,将省略本文所描述的器件中已知功能和结构的详细具体说明。 为了解决现有技术基于图像过滤垃圾邮件准确率低的问题,本专利技术提供了 一种对 图像型垃圾邮件进行过滤的方法及装置,W下结合附图W及几个实施例,对本专利技术进行进 一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本专利技术,并不限定本发 明。 方法实施例 本专利技术实施例提供的一种对图像型垃圾邮件进行过滤的方法,参见图1,该方法包 括: S101、通过WAF模型对邮件图像中识别出的关键词进行关键词重构; S102、基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所 述邮件进行过滤。 即,本专利技术通过WAF模型对邮件图像中识别出的关键词进行关键词重构,并基于 重构后的关键词对邮件进行判断和过滤,从而解决现有技术中基于图像过滤垃圾邮件准确 率低的问题。 其中,步骤S101具体包括: 通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的 亲密度之和,当亲密度之和的值超过预设的阔值时,则确定没有被识别的字与其相邻的已 识别的字构成关键词。 具体而言,本专利技术是通过WAF模型计算关键字之间的亲密度;再根据关键字之间 的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和。 具体实施时,本专利技术实施例是根据词激活力公式WO/;, =(.4 苗计算各个 关键词之间的连接紧密度,并通过亲密度矩阵计算各个关键词之间亲密度之和; 其中,为关键字i出现的频率,fU为关键字i和关键字j一起出现的频率,dU 为两个关键字一起出现时的平均距离,Ku= (k|afki〉〇orafy〉0},Lu= {l|afii〉0or 3'。.〉0},01?片7)=111;13义片7),1(。.为关键词;[0相同的前向本文档来自技高网...
【技术保护点】
一种对图像型垃圾邮件进行过滤的方法,其特征在于,包括:通过WAF模型对邮件图像中识别出的关键词进行关键词重构;基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤。
【技术特征摘要】
【专利技术属性】
技术研发人员:严寒冰,李思远,刘亚姝,张洪刚,徐彬,张帅,徐原,高胜,胡俊,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京邮电大学,北京建筑大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。