文章比对方法与装置制造方法及图纸

技术编号:5180934 阅读:496 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种文章比对方法与装置。该方法包括:接收用户输入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;根据相似度,确定比对结果。本发明专利技术根据关键词搜索相关文章,基于相对熵和余弦定理的原理,将自己的文章与搜索到的文章进行分析比对,有效的提高了比对速度、比对精度以及比对的准确度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及一种文章比对方法与装置
技术介绍
目前使用的反剽窃系统主要有两种,一种是某网站的文章检测系统,包括了 TMLC, SMLC,AMLC三套系统。TMLC为专门为研究生院等部门提供检测服务,仅限检测研究生毕业 论文。可检测涉及抄袭与剽窃、伪造、篡改等学术不端文献。SMLC专门为社科期刊编辑部提 供检测服务,仅限检测社科期刊稿件。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投 等学术不端文献等问题。AMLC专门为科技期刊编辑部提供检测服务,仅限检测科技期刊稿 件。可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端行为。另外一种是某大学的ROST系统,目前已在全国20多所高校院系和100多家期刊 社推广使用。可以自动将文档切割为多个50-200字(可自定义)的小文本,通过混合引擎 与188亿个网页和490万篇文献进行匹配,标示出每个文本块与文献库中的文献的最大相 似度。由此软件统计出相似度>95% (基本原封不动拷贝)与相似度>80% (拷贝后略 作修改)的字数所占总字数比例。软件把这个比例作为相似程度参考衡量指标。ROST反剽 窃系统与其他系统最大的不同之处在于覆盖了 188亿个网页以及490万篇文章。但是,上述技术存在如下缺陷1.前一种方法中各套系统只能检测本单位内部的文章,不能检索本单位之外的文 章,相似度比对精度不够、比对信息显示不明确。而且没有对外的接口,外部人无缘此系统。2.后一种方法作者已经停止更新,其缺点有数据维护困难,相似度比对进度不够、 比对信息显示不明确。综上可知,现有的文章比对系统存在缺陷有比对速度慢、比对精度低且准确度低、 比对信息显示不明确、比对库不全面且相对维护困难、用户少且访问困难。
技术实现思路
本专利技术的目的在于提供一种章比对方法与装置,基于本专利技术,能够针对用户的需 求,根据关键词搜索相关文章,再将自己的文章与搜索到的文章进行分析比对,以克服比对 速度慢、比对精度低、准确度低等缺陷。一方面,本专利技术一种文章比对方法,包括如下步骤文章集获取步骤,接收用户输 入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的 文章实体化,形成文章集;相似度比对步骤,接收用户输入的、作为比对对象的用户文章,基 于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;结 果获取步骤,根据相似度,确定比对结果。上述文章比对方法,优选所述系统数据库通过如下方式创建抓取步骤,抓取文章 并存储;分类步骤,将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论文、 标准文献;分析步骤,按类别分析文章,确定文章的标题、作者、关键词、内容摘要;索引创4建步骤,用所述标题、作者、关键词和内容摘要创建数据库索引。上述文章比对方法,优选所述相似度比对步骤包括如下步骤特征向量计算步骤, 基于相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计算所述用户文章的特征 向量;夹角计算步骤,利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特征向 量与所述用户文章的特征向量之间的夹角;根据所述夹角,确定相似度。上述文章比对方法,优选所述每一篇文章的特征向量以及用户文章的特征向量的 计算是通过词频率-逆向文档频率的统计获取的。另一方面,本专利技术一种文章比对装置,包括如下步骤文章集获取模块、相似度比 对模块和结果获取模块。文章集获取模块用于接收用户输入的关键字,用搜索引擎的原理 在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度 比对模块用于接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述 用户文章与所述文章集中的每一篇文章进行相似度比对;结果获取模块用于根据相似度, 确定比对结果。上述文章比对装置,优选所述文章集获取模块中的系统数据库通过如下方式创 建抓取文章并存储;将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论 文、标准文献;按类别分析文章,确定文章的标题、作者、关键词、内容摘要;用所述标题、作 者、关键词和内容摘要创建数据库索弓I。上述文章比对装置,优选所述相似度比对模块包括特征向量计算单元,用于基于 相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计算所述用户文章的特征向量; 夹角计算单元,用于利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特征向 量与所述用户文章的特征向量之间的夹角;相似度确定单元,用于根据所述夹角单元,确定 相似度。上述文章比对装置,优选所述特征向量计算单元中,每一篇文章的特征向量以及 用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。相对于现有技术而言,本专利技术根据关键词搜索相关文章,基于相对熵和余弦定理 的原理,将自己的文章与搜索到的文章进行分析比对,有效的提高了比对速度、比对精度以 及比对的准确度。附图说明图1为本专利技术文章比对方法实施例的步骤流程图;图2为本专利技术实施提供的根据关键词查找索引库得出数据库中相关联的文章集, 用比对对象(文章)与文章集比对,得到所有与比对对象相似的文章以及“比对信息”的示 意图;图3为本专利技术文章比对装置实施例的结构示意图;图4为本专利技术文章比对装置实施例中,相似度比对模块的结构简图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本专利技术作进一步详细的说明。参照图1,图1为本专利技术文章比对方法实施例的步骤流程图,包括如下步骤文章集获取步骤S110,接收用户输入的关键字,用搜索引擎的原理在系统数据 库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度比对步骤 S120,接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文 章与所述文章集中的每一篇文章进行相似度比对;结果获取步骤S130,根据相似度,确定 比对结果。以某文章的比对为例图2为本专利技术的实施提供了文章比对的流程示意图,如图2所示,本实施例的文章 比对主要包括以下步骤一、比对系统数据库的构建通过多种渠道,如经济手段或与对方协商或网络爬虫,充实数据库,并对数据进行 分类、分析,创建数据库索引。1、网络爬虫在对方允许的情况下通过httpclient网络爬虫抓取对方的文章。2、数据分类将存储设备中的数据进行分类,类别有期刊、学术论文、专利文献、会 议论文、标准文献等。3、数据分析按类别分析的各种文章,分析出标题、作者、关键词、内容摘要、内容寸。4、创建数据库索引用标题、作者、关键词和内容摘要做数据库索引,所用技术为 搜索引擎Lucene的索引库创建功能。二、文章比对1、用户输入关键字,用搜索引擎的原理搜索得到相关联的文章,将文章实体化作 为文章集。具体涉及的技术是Lucene。Lucene是某软件基金会某项目组的一个子项目,是一个开放源代码的全文检索引 擎工Lucene具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提 供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文 检索的功能,或者是以此本文档来自技高网
...

【技术保护点】
一种文章比对方法,其特征在于,包括如下步骤:  文章集获取步骤,接收用户输入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;  相似度比对步骤,接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;  结果获取步骤,根据相似度,确定比对结果。

【技术特征摘要】
一种文章比对方法,其特征在于,包括如下步骤文章集获取步骤,接收用户输入的关键字,用搜索引擎的原理在系统数据库中搜索得到相关联的文章,将所述相关联的文章实体化,形成文章集;相似度比对步骤,接收用户输入的、作为比对对象的用户文章,基于相对熵和余弦定理,将所述用户文章与所述文章集中的每一篇文章进行相似度比对;结果获取步骤,根据相似度,确定比对结果。2.根据权利要求1所述的文章比对方法,其特征在于,所述系统数据库通过如下方式 创建抓取步骤,抓取文章并存储;分类步骤,将存储的文章进行分类,类别包括期刊、学术论文、专利文献、会议论文、标 准文献;分析步骤,按类别分析文章,确定文章的标题、作者、关键词、内容摘要; 索引创建步骤,用所述标题、作者、关键词和内容摘要创建数据库索引。3.根据权利要求2所述的文章比对方法,其特征在于,所述相似度比对步骤包括如下 步骤特征向量计算步骤,基于相对熵,计算所述文章集中,每一篇文章的特征向量;以及,计 算所述用户文章的特征向量;夹角计算步骤,利用余弦定理的原理,计算所述文章集中的每一篇文章对应的特征向 量与所述用户文章的特征向量之间的夹角; 根据所述夹角,确定相似度。4.根据权利要求3所述的文章比对方法,其特征在于,所述每一篇文章的特征向量以 及用户文章的特征向量的计算是通过词频率-逆向文档频率的统计获取的。5.一种文章比对装置...

【专利技术属性】
技术研发人员:高万林张树亮臧金玉卢帅州赵佳宁
申请(专利权)人:中国农业大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1