一种基于数据挖掘的在线文章筛选方法技术

技术编号：3806268 阅读：357 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于数据挖掘的在线文章筛选方法，具体来说，公开了一种利用各种方法来识别网络文章的方法，它属于网络技术领域。该方法主要步骤包括：（１）关键字匹配；（２）是否发表；（３）内容覆盖程度；（４）相似度筛选，多余删除；（５）文章适用的语言分类；（６）有效提取相关的优秀文章；（７）精品文章再筛选；（８）垃圾文章删除；（９）精品文章作者推荐。利用此方法可以提高筛选效率，并且可以节约人力成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术公开了，它属于网络
领域。
技术介绍
文章筛选是指为获得对某一方面的文章的需要而进行的文章客观评价，从而确定满足筛选准则的程度所进行的系统的独立的并形成结果的过程。文章筛选主要是面对文章内容体系(比如文章包含的内容是否丰富，是否有实际作用)的符合性、有效性和适宜性进行的检査活动和过程，就筛选的方式来说筛选具有系统性和独立性的特点。系统性是指被筛选的所有要素都应覆盖；独立性是为了使筛选活动独立于被筛选人或单位，以确保筛选的公正和客观。但是现行的在线筛选方法不是使用人为参与因素过多就是所使用的方法太过简单，比如只使用点击率。人为进行的文章筛选机制即浪费人力和物力，而且有主观性因素等缺陷，比如人为喜好或者受知识所限所作出的决策上的失误。而当多个筛选人员存在的时候又存在人员能力上的不同照成筛选上的差异。而光靠点击率的方法又存在很多现行的问题，比如文章受时间因素影响很大，越早的文章因为时间关系一般都是名列前茅，而新的比较好的文章因为出现的时间比较晚一直不能置顶，反而失去了很多关注的机会。这样就会导致好的文章的消失。数据挖掘(Data Mining),又称为数据库中的知识发现(KnowledgeDiscovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或"挖掘"知识。数据挖掘能很好应用在文章的筛选上。有效的使用数据挖掘的方法可以减少很多人为负担，本专利就使用部分数据挖掘方法解决了现行文章筛选的问题。
技术实现思路
本专利技术克服了现有技术的不...

【技术保护点】
一种基于数据挖掘的在线文章筛选方法，其特征在于，该方法主要步骤包括：　１）、首先看该文章是否是关于特定网站所需的文章，从关键字、摘要提取相应的字眼作为一个关键属性，如果该属性与本网站收录的内容无关，属性值为ｆａｌｓｅ，则直接淘汰；如果属性值为ｙｅｓ则进入下一步筛选；　２）、其次看该文章是否在国内或者国外核心杂志上发表，如果文章有发表，则查找一个核心期刊表，如果文章发表在该核心期刊表中的期刊上则录用该文章；若文章不在核心期刊列表中，则因为该文章已经发表过就给一个相应的得分；　３）、然后根据该文章所覆盖的内容点，根据覆盖的内容点得到相应的得分，并且这个得分是根据本文件库所有的文章覆盖的内容点的多少进行动态调整，最后通过累计所覆盖的内容点得到该文章这部分的分数，具体内容点的计算使用数据挖掘关联规则方法；　４）、然后对本文章进行相似度审核，从关键字，摘要甚至是采用全文匹配原则；先考虑关键字匹配，如果关键字匹配后采用全文匹配，当出现一定相似度，就根据原来的文章的得分情况判断，若是原有文章得分较低则删除时间较久的文章，否则删除新录入的文章，这里使用的相似度审核不是对全文进行逐字逐句...

【技术特征摘要】

【专利技术属性】
技术研发人员：罗笑南，王建民，刘宁，文允，叶均杰，
申请(专利权)人：中山大学，
类型：发明
国别省市：81[中国|广州]

全部详细技术资料下载我是这个专利的主人