一种网页信息识别方法及装置制造方法及图纸

技术编号:13791624 阅读:60 留言:0更新日期:2016-10-06 01:25
本申请公开了一种网页信息识别方法及装置。其中,网页信息识别方法包括:更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;获取当前SNS应用网页中出现的网页信息;在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。通过本申请,可以提高网页信息识别的通用性。

【技术实现步骤摘要】

本申请涉及网络
,尤其涉及一种网页信息识别方法及装置
技术介绍
随着互联网技术的日益普及和不断发展,论坛、BBS(Bulletin Board System,电子公告牌系统)、微博等SNS(Social Networking Services,社会性网络服务)应用以方便、快速、低成本传播等特点已经成为人们日常交流的重要通讯工具。然而,社交网络在给人们带来便利的同时,网络中附带的虚假信息、诈骗信息、炒信广告等也像洪水一样在社交网络中泛滥,这类信息为了满足小部分人的需求,往往以损害大多数用户利益为代价,甚至威胁到了SNS应用的正常发展。通常,各个SNS应用都有自己的网页信息识别系统,通过自身的网页信息识别系统进行网页中信息的识别,以发现虚假信息、诈骗信息、炒信广告等信息。但是,现有的网页信息识别系统往往针对所应用的SNS应用的自身特点进行设定,应用于某个SNS应用的网页信息识别系统可能不适用于其他SNS应用。因此,现有SNS应用中的网页信息识别方式通用性较差。
技术实现思路
本申请实施例提供一种网页信息识别方法及装置,以提高网页信息识别的通用性。本申请提供一种网页信息识别方法,包括:更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;获取当前SNS应用网页中出现的网页信息;在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。可选的,所述更新与SNS应用相关的网页信息识别规则,包括:修改已有网页信息识别规则中的配置参数,并使得修改后的网页信息识别规则实时启用生效。可选的,所述在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则,包括:获取所述网页信息所属的特征类别;在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。可选的,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括:获取所述网页信息的第一关键特征;利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配;如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。进一步,所述更新与SNS应用相关的网页信息识别规则,还包括:在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。可选的,当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括:按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第二关键特征;通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息;接收所述第三方通过所述交互接口返回的识别结果信息。本申请提供一种网页信息识别装置,包括:识别规则配置模块,用于更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;网页信息获取模块,用于获取当前SNS应用网页中出现的网页信息;匹配规则查找模块,用于在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;网页信息识别模块,用于利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。可选的,所述识别规则配置模块,包括:配置参数修改单元,用于修改已有网页信息识别规则中的配置参数;启用单元,用于使得修改后的网页信息识别规则实时启用生效。可选的,所述匹配规则查找模块,包括:网页特征获取单元,用于获取所述网页信息所属的特征类别;查找单元,用于在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。可选的,所述网页信息识别模块,包括:第一特征获取单元,用于获取所述网页信息的第一关键特征;第一识别单元,用于利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配;结果单元,用于如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。进一步,所述识别规则配置模块,还包括:第三方规则接入单元,用于在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。可选的,所述网页信息识别模块,包括:第二特征获取单元,用于当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第二关键特征;特征发送单元,用于通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息;识别结果接收单元,用于接收所述第三方通过所述交互接口返回的识别结果信息。本申请实施例中,预置的与SNS应用相关的网页信息识别规则并非是固定不变的,而是可以采用动态配置的方式进行调整更新。通过调整更新,使得预置的网页信息识别规则能有效应对网页中非法信息的变化;同时,由于网页信息识别规则针对SNS应用进行更新设置,使得网页信息识别规则可以同时对应多个SNS应用。由此,本申请实施例能够大大提高网页信息识别的通用性。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的
示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中一种网页信息识别方法的流程示意图;图2为图1中步骤103的实现流程图;图3为图1中步骤104的一种实现流程示意图;图4为图1中步骤104的另一种实现流程示意图;图5为本申请实施例中的一个应用场景示意图;图6为图5应用场景中进行广告识别过滤的流程示意图;图7为本申请实施例中一种网页信息识别装置的结构示意图;图8为图7中识别规则配置模块的一种具体结构示意图;图9为图7中匹配规则查找模块的具体结构示意图;图10为图7中网页信息识别模块的一种结构示意图;图11为图7中识别规则配置模块的另一种具体结构示意图;图12为图7中网页信息识别模块的另一种结构示意图。具体实施方式为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。为了应对SNS应用网页上出现的虚假信息、诈骗信息、炒信广告等信息,各个SNS用于网站通常都拥有自己的网页识别系统。以识别广告信息为例,传统的反广告平台往往采用以下几种网页信息识别方案:一、基于用户行为特征识别,通过分析用户行为上的变化,有效识别出用户异常行为,来帮助系统找出广告文本;二、基于关键词识别,通过判断信息文本是否包含特定关键词,来帮助系统发现广告文本;三、基于机器学习算法进行广告识别,本文档来自技高网
...

【技术保护点】
一种网页信息识别方法,其特征在于,包括:更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;获取当前SNS应用网页中出现的网页信息;在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。

【技术特征摘要】
1.一种网页信息识别方法,其特征在于,包括:更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;获取当前SNS应用网页中出现的网页信息;在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。2.根据权利要求1所述的方法,其特征在于,所述更新与SNS应用相关的网页信息识别规则,包括:修改已有网页信息识别规则中的配置参数,并使得修改后的网页信息识别规则实时启用生效。3.根据权利要求1或2所述的方法,其特征在于,所述在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则,包括:获取所述网页信息所属的特征类别;在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。4.根据权利要求1或2所述的方法,其特征在于,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括:获取所述网页信息的第一关键特征;利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配;如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。5.根据权利要求2所述的方法,其特征在于,所述更新与SNS应用相关的网页信息识别规则,还包括:在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。6.根据权利要求5所述的方法,其特征在于,当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,所述利用所述相匹配的网页信息识别规则,对所述网页信
\t息进行识别,包括:按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第二关键特征;通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息;接收所述第三方通过所述交互接口返回的识别结果信息。7.一种网页信息识别装置,其特征在于,包括:识别规则配置模块...

【专利技术属性】
技术研发人员:李攀李凯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1