一种垃圾模板文章识别方法和设备技术

技术编号：9865804 阅读：152 留言：0更新日期：2014-04-03 00:54

本发明专利技术公开了一种垃圾模板文章识别方法和设备，属于网络通讯领域。该方法包括：对符合条件的微博文章提取特征，生成文章特征；其中，文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；获取垃圾模板列表，垃圾模板列表中包含垃圾模板特征；垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同；当文章特征与垃圾模板列表中的垃圾模板特征相同时，判定微博文章为垃圾模板文章。该设备包括：特征提取模块、获取模块、识别模块。本发明专利技术通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章，解决了目前微博平台中无法有效识别从而导致浪费搜索引擎资源的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种垃圾模板文章识别方法和设备
本专利技术涉及网络通讯领域，特别涉及一种垃圾模板文章识别方法和设备。
技术介绍
随着微博的飞速发展，某些微博用户为了达到广告或活动宣传的目的制作微博APP (application,应用程序),发文吸引其他用户点击并自动发表转播文章，在短时间内制造大量的格式相似的模板文章，这就造成在微博平台中，垃圾模板文章大量存在。这些垃圾模板文章一般都是重复的，或者根据转发人的个人信息或某种规律随机的修改某些文字，包含的信息量非常少，但是数据量却很大，据统计垃圾模板文章约占全量博文的10%。如果不对这些垃圾模板文章进行识别以及过滤，会极大的浪费搜索引擎资源，大量的重复模板也会严重影响用户体验。同一类的垃圾模板文章具有某些共性特征，目前，主要通过人工对文章所包含的语义进行分析，从而判断某一篇微博文章是否为垃圾模板文章。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题:人工识别的方式速度比较慢，效率较低，无法应对微博平台庞大的数据量，不可能对每篇微博文章都进行人工识别。
技术实现思路
为了有效解决目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源且严重影响用户体验的问题，本专利技术实施例提供了一种垃圾模板文章识别方法和设备。所述技术方案如下:本专利技术实施例提供了一种垃圾模板文章识别方法，所述方法包括:对符合条件的微博文章提取特征，生成文章特征；其中，所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；获取垃圾模板列表，所述垃圾模板列表中包含垃圾模板特征；所述垃圾模板特征为出现频...
一种垃圾模板文章识别方法和设备

【技术保护点】
一种垃圾模板文章识别方法，其特征在于，所述方法包括：对符合条件的微博文章提取特征，生成文章特征；其中，所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；获取垃圾模板列表，所述垃圾模板列表中包含垃圾模板特征；所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同；当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时，判定所述微博文章为垃圾模板文章。

【技术特征摘要】
1.一种垃圾模板文章识别方法，其特征在于，所述方法包括: 对符合条件的微博文章提取特征，生成文章特征；其中，所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；获取垃圾模板列表，所述垃圾模板列表中包含垃圾模板特征；所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同；当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时，判定所述微博文章为垃圾模板文章。2.根据权利要求1所述的方法，其特征在于，所述符合条件的微博文章为原创形式且包含链接和图片的微博文章，所述对符合条件的微博文章提取特征之前，还包括: 将所述符合条件的微博文章中的数字以及字母去掉，并将所述微博文章中的各种括号中的内容去掉保留所述括号。3.根据权利要求1所述的方法，其特征在于，所述对符合条件的微博文章提取特征，包括: 将符合条件的微博文章以标点进行分段，并按顺序依次生成分段编号；在所述每个分段中，提取所述分段的标点，并将提取的所述标点组成字符串，生成所述标点特征；在所述每个分段中，提取有话题的分段的话题和对应的分段编号，并将提取的所述话题以及所述分段编号组成字符串，生成所述话题特征；在所述每个分段中，提取有括号的分段对应的分段编号和所述分段对应的括号类型，将提取的所述分段编号以及所述括号类型组成字符串，生成所述括号特征；在所述每个分段中，根据所述每个分段中是否有链接而生成序列，作为所述链接特征；在所述每个分段中，根据所述每个分段中是否有账户名标识而生成序列，作为所述账户名特征。4.根据权利要求3所述的方法，其特征在于，所述文章特征还包括内容特征，相应地所述对符合条件的微博文章提取特征，还包括: 在所述每个分段中，将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容，按顺序拼装在一起，生成内容特征。5.根据权利要求3所述的方法，其特征在于，所述文章特征还包括前段内容特征，相应地所述对符合条件的微博文章提取特征，还包括: 在所述每个分段中，将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分，生成前段内容特征。6.根据权利要求3所述的方法，其特征在于，所述文章特征还包括后段内容特征，相应地所述对符合条件的微博文章提取特征，还包括: 在所述每个分段中，将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分，生成后段内容特征。7.一种垃圾模板文章...

【专利技术属性】
技术研发人员：郝志新，何建国，张国强，何小晨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人