当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于数据挖掘的在线文章筛选方法技术

技术编号:3806268 阅读:357 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于数据挖掘的在线文章筛选方法,具体来说,公开了一种利用各种方法来识别网络文章的方法,它属于网络技术领域。该方法主要步骤包括:(1)关键字匹配;(2)是否发表;(3)内容覆盖程度;(4)相似度筛选,多余删除;(5)文章适用的语言分类;(6)有效提取相关的优秀文章;(7)精品文章再筛选;(8)垃圾文章删除;(9)精品文章作者推荐。利用此方法可以提高筛选效率,并且可以节约人力成本。

【技术实现步骤摘要】

本专利技术公开了,它属于网络
领域。
技术介绍
文章筛选是指为获得对某一方面的文章的需要而进行的文章客观评价,从而确定满足筛选准则的程度所进行的系统的独立的并形成结果的过程。文章筛选主要是面对文章内容体系(比如文章包含的内容是否丰富,是否有实际作用)的符合性、有效性和适宜性进行的检査活动和过程,就筛选的方式来说筛选具有系统性和独立性的特点。系统性是指被筛选的所有要素都应覆盖;独立性是为了使筛选活动独立于被筛选人或单位,以确保筛选的公正和客观。但是现行的在线筛选方法不是使用人为参与因素过多就是所使用的方法太过简单,比如只使用点击率。人为进行的文章筛选机制即浪费人力和物力,而且有主观性因素等缺陷,比如人为喜好或者受知识所限所作出的决策上的失误。而当多个筛选人员存在的时候又存在人员能力上的不同照成筛选上的差异。而光靠点击率的方法又存在很多现行的问题,比如文章受时间因素影响很大,越早的文章因为时间关系一般都是名列前茅,而新的比较好的文章因为出现的时间比较晚一直不能置顶,反而失去了很多关注的机会。这样就会导致好的文章的消失。数据挖掘(Data Mining),又称为数据库中的知识发现(KnowledgeDiscovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或"挖掘"知识。数据挖掘能很好应用在文章的筛选上。有效的使用数据挖掘的方法可以减少很多人为负担,本专利就使用部分数据挖掘方法解决了现行文章筛选的问题。
技术实现思路
本专利技术克服了现有技术的不足,提出了。通过多种方法的结合,可以尽量避免人为因素参与从而自动实现文章筛选的效果。本专利技术可以应用于政府和比较权威的网站的文章建设,可以达到较好的效果。本专利技术在内容覆盖和相似度比较方面使用到数据挖掘,对于内容覆盖可以使用几个关键字眼识别就认为覆盖一个内容点,或者一段程序有相应的输入和输出就认为覆盖该功能点。而对于相似度比较则使用部分字眼或者段落匹配,这里对各类字眼或者段落设立一定权值,当总的累加和超过一定的阈值后就认为该两篇文章是雷同的。在不同各类文章的排序方面使用前向反馈神经网络的方法,根据录入文章的数目不断修改各个相关的属性,比如时间、文章级别、点击率,根据他们所占用的权值,进行动态排名。该方法主要步骤包括对于所有的文章的筛选原则如下-(1)关键字匹配;(2) 是否发表;(3) 査看内容覆盖程度;(4) 相似度筛选,多余删除;(5) 文章适用的语言分类;(6) 有效提取相关的优秀文章;(7) 精品文章再筛选;(8) 垃圾文章删除;(9) 精品文章作者推荐。整个步骤是按整个筛选原则,按顺序一步步进行筛选。先按原则(1 ) (4)进行筛选删除,然后使用原则(5)进行分类,再使用(6) (7)进行细化取经,并通过(8)取出一些库中已经不适合的文章,再所有步骤完成后,就是用(9)进行推荐工作。本专利技术所包括的模块有-(1) 检査模块(2) 核心期刊存储列表(3) 精品文章存储区(4) 垃圾文章存储区(5) 人为因素介入模块(6) 库中文章搜索模块检查模块是本方法的核心部件是实现一些文章的字眼的提取和部分内容的匹配和内容评分,在文章提取,匹配,评分中使用的所有数据挖掘方法也在该模块进行实现。核心期刊列表是进行检査所必要存在的一个列表,为了更好寻找一个文章是否发表在核心期刊。精品文章和垃圾文章区存储就是进行筛选后的文章所在的分类区,为了便于读者更好进行相应文章的选择。人为因素介入区是对某个主题约稿和处理某些不能用该方法处理的文章,从而提高筛选的准确率。这个模块可能包含用户界面和对本方法所对应系统相应的操作接口等。库中文章搜索模块是为了给用户提供方便来搜索相应的文章或者相应精品文章,从而达到比较高的参考价值。本专利技术的有益效果是(1) 不管是旧的还是新的只要是好的文章都会出现在前几名,从而达到精华文章常置顶的目的。(2) 可以更好的排除无关于相应网站的文章,特别对现行网络上流行的垃圾文章和广告盛行的现象可以得到更好的制止。(3) 在很多方面可以比人为更加有利,即可以避免个人知识的缺陷还有重复工作的疲劳造成的失误。(4) 可以有效的节省人力资源,节省人力开支,节约成本。以下结合附图,对本专利技术做出进一步的详细说明图l为本专利技术的实施流程图;图2为本专利技术模块结构图;图3为排名前向反馈神经网络方法示意图。具体实施方式下面结合附图对本专利技术做进一步的说明。 本专利技术的实施流程图如图l所示,其基本步骤如下-(1) 对于一篇新的文章,首先看该文章是否是关于特定网站所需的 文章,这个可以从关键字,摘要提取相应的字眼来检查这里可以使用一个关键属性,如果该属性值为false (与本网站收录的 内容无关),则直接淘汰。如果为yes则进入下一步筛选;(2) 其次看该文章是否在国内或者国外核心杂志上发表,如果文章 有发表过,则査找一个核心期刊表,如果文章发表在该核心期 刊表中的期刊上则可以基本上录用该文章。若文章不在核心期 刊列表中,则因为该文章已经发表过可以给一个相应的得分。 这里这个核心期刊表是需要动态维护, 一般维护周期一周一次 就可以。本核心期刊表可以从相关网站下载,也可以自己设定 一些相关属性(引用次数,点击数,文章级别)进行动态计算, 根据每个期刊的得分来确定哪些是核心期刊,各个相似的网站 的筛选机制还可以进行相互共享相应的核心期刊列表来达到更 新的目的;(3) 然后根据该文章所覆盖的内容点,根据覆盖的内容点得到相应 的得分,并且这个得分可以根据本文件库所有的文章覆盖的内 容点的多少进行动态调整。最后通过累计所覆盖的内容点得到 该文章这部分的分数。具体内容点的计算可以使用数据挖掘关 联规则方法。因为网站涉及文章很多,从中提取相应的字眼组 成某部分内容的描述,或者从相应的输入输出中得到某部分代码的功能点是比较容易的事情。而当每审批一个文章可以对现 有的关联规则进行动态调整和筛选,去掉一些旧的关联规则,而保留一些新的有用的关联规则;(4) 然后可以对本文章进行相似度度量,可以从关键字,摘要甚至 可以是采用全文匹配原则。这里先考虑关键字匹配,如果关键 字匹配后采用全文匹配,当出现一定相似度,就根据原来的文 章的得分情况判断,若是原有文章得分较低则删除时间较久的 文章,否则删除新录入的文章。这里使用的相似度度量不是对 全文进行逐字逐句的匹配,而是先对关键字进行比较,得到一 定的相似度得分,然后对摘要进行匹配。这里对摘要进行匹配 是使用部分字眼,而这部分字眼是在以前大量文章中提取的使 用关联规则分类的方法,越多的相关字眼的匹配说明这两篇文 章的相似度就越高,可以保证较好的相似度度量;(5) 然后根据文章的语言进行分类。文章的语言部分可以分为摘要 和正文两部分,比如摘要有无英文描述等。文章语言的分类是 为了适应各个语种的文章的需求;(6) 接着检査近期是否有对某方面的文章特别的需要,如果有就检 测是否该文章是特别需要的类型,如果是则归档,进行优秀文 章记录,否则进行下一步筛选。这里需要一个相关的原则,可 能一些文章得分较低,但是有较大的需求,这部分文章可能降 级录取,这部分的调整可以由人为本文档来自技高网...

【技术保护点】
一种基于数据挖掘的在线文章筛选方法,其特征在于,该方法主要步骤包括: 1)、首先看该文章是否是关于特定网站所需的文章,从关键字、摘要提取相应的字眼作为一个关键属性,如果该属性与本网站收录的内容无关,属性值为false,则直接淘汰;如果属性 值为yes则进入下一步筛选; 2)、其次看该文章是否在国内或者国外核心杂志上发表,如果文章有发表,则查找一个核心期刊表,如果文章发表在该核心期刊表中的期刊上则录用该文章;若文章不在核心期刊列表中,则因为该文章已经发表过就给一个相应的得分;  3)、然后根据该文章所覆盖的内容点,根据覆盖的内容点得到相应的得分,并且这个得分是根据本文件库所有的文章覆盖的内容点的多少进行动态调整,最后通过累计所覆盖的内容点得到该文章这部分的分数,具体内容点的计算使用数据挖掘关联规则方法; 4) 、然后对本文章进行相似度审核,从关键字,摘要甚至是采用全文匹配原则;先考虑关键字匹配,如果关键字匹配后采用全文匹配,当出现一定相似度,就根据原来的文章的得分情况判断,若是原有文章得分较低则删除时间较久的文章,否则删除新录入的文章,这里使用的相似度审核不是对全文进行逐字逐句的匹配,而是先对关键字进行比较,得到一定的相似度得分,然后对摘要进行匹配; 5)、然后根据文章的语言进行分类,文章的语言部分可以分为摘要和正文两部分,文章语言的分类是为了适应各个语种的文章的需求; 6)、 接着检查近期是否有对某方面的文章特别的需要,如果有就检测是否该文章是特别需要的类型,如果是则归档,进行优秀文章记录,否则进行下一步筛选;这里需要一个相关的原则,一些文章得分较低,但是有较大的需求,这部分文章就降级录取,这部分的调整既能够由人为调整,也能够有一些设计的系统进行调整; 7)、最后一步进行综合评审,这个综合筛选主要是人为因素的介入小部分文章的筛选,包括对一些精品文章的提取精华部分,对一些垃圾文章直接人为删除,对一些不确定文章进行归档; 8)、最后进行文章作者积分 录入模块,根据文章的作者累计相应作者的文章; 9)、以上所述的各个部分文章的得分要累加起来,进行本文章的整体评价,并且对该文章进行分数评级,并且根据文章的等级进行分类存储。...

【技术特征摘要】

【专利技术属性】
技术研发人员:罗笑南王建民刘宁文允叶均杰
申请(专利权)人:中山大学
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1