一种垃圾模板文章识别方法和设备技术

技术编号:9865804 阅读:138 留言:0更新日期:2014-04-03 00:54
本发明专利技术公开了一种垃圾模板文章识别方法和设备,属于网络通讯领域。该方法包括:对符合条件的微博文章提取特征,生成文章特征;其中,文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;获取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同;当文章特征与垃圾模板列表中的垃圾模板特征相同时,判定微博文章为垃圾模板文章。该设备包括:特征提取模块、获取模块、识别模块。本发明专利技术通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章,解决了目前微博平台中无法有效识别从而导致浪费搜索引擎资源的问题。

【技术实现步骤摘要】
一种垃圾模板文章识别方法和设备
本专利技术涉及网络通讯领域,特别涉及一种垃圾模板文章识别方法和设备。
技术介绍
随着微博的飞速发展,某些微博用户为了达到广告或活动宣传的目的制作微博APP (application,应用程序),发文吸引其他用户点击并自动发表转播文章,在短时间内制造大量的格式相似的模板文章,这就造成在微博平台中,垃圾模板文章大量存在。这些垃圾模板文章一般都是重复的,或者根据转发人的个人信息或某种规律随机的修改某些文字,包含的信息量非常少,但是数据量却很大,据统计垃圾模板文章约占全量博文的10%。如果不对这些垃圾模板文章进行识别以及过滤,会极大的浪费搜索引擎资源,大量的重复模板也会严重影响用户体验。同一类的垃圾模板文章具有某些共性特征,目前,主要通过人工对文章所包含的语义进行分析,从而判断某一篇微博文章是否为垃圾模板文章。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:人工识别的方式速度比较慢,效率较低,无法应对微博平台庞大的数据量,不可能对每篇微博文章都进行人工识别。
技术实现思路
为了有效解决目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源且严重影响用户体验的问题,本专利技术实施例提供了一种垃圾模板文章识别方法和设备。所述技术方案如下:本专利技术实施例提供了一种垃圾模板文章识别方法,所述方法包括:对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。具体地,所述符合条件的微博文章为原创形式且包含链接和图片的微博文章,所述对符合条件的微博文章提取特征之前,还包括:将所述符合条件的微博文章中的数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号。具体地,所述对符合条件的微博文章提取特征,包括:将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;在所述每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征;在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征;在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征;在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征。进一步地,所述文章特征还包括内容特征,相应地所述对符合条件的微博文章提取特征,还包括:在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。进一步地,所述文章特征还包括前段内容特征,相应地所述对符合条件的微博文章提取特征,还包括:在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。进一步地,所述文章特征还包括后段内容特征,相应地所述对符合条件的微博文章提取特征,还包括:在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。本专利技术实施例还提供了一种垃圾模板文章识别设备,所述设备包括:特征提取模块,用于对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;获取模块,用于获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;识别模块,用于当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。具体地,所述设备还包括:预处理模块,用于对符合条件的微博文章提取特征之前,将所述微博文章中的数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号;所述符合条件的微博文章为原创形式且包含链接和图片的微博文章。具体地,所述特征提取模块,包括:分段单元,用于将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;标点特征单元,用于在所述每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征;话题特征单元,用于在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征;括号特征单元,用于在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;链接特征单元,用于在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征;账户名特征单元,用于在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征。进一步地,所述特征提取模块,还包括:内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。进一步地,所述特征提取模块,还包括:[0041 ] 前段内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。进一步地,所述特征提取模块,还包括:后段内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例提供的垃圾模板文章识别方法和设备,通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板的文章不予显示,解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题,提高了用户使用体验。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的一种垃圾模板文章识别方法的流程图;图2是本专利技术实施例二提供的一种垃圾模板文章识别方法的流程图;图3是本专利技术实施例三提供的一种垃圾模板文章识别设备的结构示意图;图4是本专利技术实施例三提供的一种垃圾模板文章识别设备的另一结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一图1是本专利技术实施例提供了一种垃圾模板文章识别方法的流程图,参见图1,该实施例包括:101本文档来自技高网...
一种垃圾模板文章识别方法和设备

【技术保护点】
一种垃圾模板文章识别方法,其特征在于,所述方法包括:对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。

【技术特征摘要】
1.一种垃圾模板文章识别方法,其特征在于,所述方法包括: 对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征; 获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同; 当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。2.根据权利要求1所述的方法,其特征在于,所述符合条件的微博文章为原创形式且包含链接和图片的微博文章,所述对符合条件的微博文章提取特征之前,还包括: 将所述符合条件的微博文章中的 数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号。3.根据权利要求1所述的方法,其特征在于,所述对符合条件的微博文章提取特征,包括: 将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号; 在所述每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征; 在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征; 在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征; 在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征; 在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征。4.根据权利要求3所述的方法,其特征在于,所述文章特征还包括内容特征,相应地所述对符合条件的微博文章提取特征,还包括: 在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。5.根据权利要求3所述的方法,其特征在于,所述文章特征还包括前段内容特征,相应地所述对符合条件的微博文章提取特征,还包括: 在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。6.根据权利要求3所述的方法,其特征在于,所述文章特征还包括后段内容特征,相应地所述对符合条件的微博文章提取特征,还包括: 在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。7.一种垃圾模板文章...

【专利技术属性】
技术研发人员:郝志新何建国张国强何小晨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1