本发明专利技术公开一种基于段落抄袭检测的电子作业反抄袭系统和方法。其包含:电子作业提交装置、电子作业接收装置、抄袭检测队列装置、电子作业解析装置、抄袭检测装置和电子作业存储装置。具体步骤为:电子作业接收装置接收通过电子作业提交装置所提交的电子作业后,将其入队抄袭检测队列装置;电子作业解析装置出队电子作业,对其进行文本解析、段落分解、存储结果,并启动抄袭检测装置;抄袭检测装置以段落为检测单位,融合有效段落判定,实现抄袭行为检测。本申请以段落为单位,融合队列机制进行抄袭检测的方法,在满足判定电子作业抄袭多篇电子作业的抄袭行为的情况下,提高了系统效率和稳定性,并能判定原创作业的归属问题,进而实现反抄袭。
【技术实现步骤摘要】
基于段落抄袭检测的电子作业反抄袭系统和方法
本专利技术涉及智能信息处理和计算机
,具体地说是一种利用计算机系统进行抄袭检测的电子作业反抄袭系统和方法。
技术介绍
随着计算机应用技术在教学中的广泛应用和电子文档技术的进步,越来越多的作业以电子文档的方式提交,即电子作业。电子作业使得作业整洁、易读、美观、易保存;因此,在越来越多的课程中,尤其是计算机课程,几乎所有的作业都以电子作业的形式提交、审阅。然而,电子作业的可复制性和易修改性,使得其抄袭变得更为简单。在没有任何反抄袭措施的情况下,学生们更愿意使用简单的复制粘贴等手段来完成其作业。目前,该现象在全国范围内已愈演愈烈。它不但降低了学生学习的主动性,对学习效果产生了巨大的负面效果;同时,也对整个社会造成了极大的不良影响。因此,如何防止电子作业抄袭行为已经成为了教育教学等行业亟需解决的一个重要问题。如果能够找到一种简单实用的电子作业反抄袭方法,较少、杜绝抄袭行为,将能极大提高教育教学质量,具有重大的意义。通常情况下,某次电子作业都是围绕某个题目展开的。它通常允许学生通过查阅大量的互联网资料、学术文献资料等完成。不可避免地,其文章中或多或少的存在一些允许范围内的引用。因此,电子作业中存在句子的相同,不能作为抄袭依据;而长段落的抄袭则可以作为抄袭凭证。此外,电子作业的抄袭主要集中在学生电子作业间的相互抄袭,这些抄袭行为包括一篇电子作业全部或部分抄袭另一篇电子作业或融合多篇电子作业等。根据本专利技术人多年教学经验的统计,绝大部分的抄袭者其抄袭行为大多是对一篇电子作业的部分择取或多篇(一般不超过3篇)电子作业的简单融合,也即将多篇电子作业的不同段落进行重新组合。针对电子文档抄袭,全球范围内已经有了许多电子文档抄袭的算法和系统。审理中专利《中文数字反抄袭侦测比对系统与方法》(杨纯青,2012,申请号201210258516.7)通过将文章拆解成句子群,并将所获取的句子群逐句上传至搜索引擎,获取与搜索引擎所搜寻出的与拆解字句雷同的网页或文章,并对抄袭的句子进行标注。该专利一定程度上能识别电子作业哪些句子雷同于网络文章;但,它却未能解决电子作业间相互抄袭的问题,而这也是电子作业最常见的现象;同时,它也无法给出定量的抄袭程度指标,即它无法智能判断该电子作业是否有抄袭行为。温州大学已授权专利《基于近似串匹配距离德电子文本文档抄袭识别方法》(胡明晓,2008,专利号200810162245.9)采用近似串匹配距离来识别文档A是否抄袭文档B,它能检测两个文档之间是否有相互抄袭行为,但却不能解决一个文档融合抄袭多个文档的现象。美国专利《Methodfordetectingplagiarism》(Kelly,V.Adam,2001,No.6976170)通过使用公式计算文档中的每个句子的特征值,通过对比两个文档各句子的特征值,来判定是否有抄袭行为。西安交通大学已授权专利《一种基于小波变换的半结构化文本结构复制检测的方法》(鲍军鹏苏杰,2011,申请号201110316054.5)通过小波变换获取板结构化文本结构特征,计算结构相似性,判定结构是否雷同等步骤来判定本结构化文本是否有复制行为。北方工业大学审理中专利《一种电子作业抄袭检测方法》(张师林,2011,申请号201110235711.3)根据常用词词频和实词语义相似度分别计算作业之间的相似程度,最后融合两方面的相似度并根据阈值判断两篇文档间是否存在抄袭。因此,由于这些方法都是以文档为单位,进行文档间的相似度计算,进而判定两个文档之间是否有抄袭行为,因此,都无法检测抄袭多个电子作业融合抄袭的行为。此外,当两个文档存在相似性的情况下,其未能解决谁是原创文档、谁是抄袭文档的问题。许多的文献也阐述了电子文档的抄袭检测方法。文献《CHECK:Adocumentplagiarismdetectionsystem》(SiA.,LeongH.V,LauR.W.H.,1997,Processingsofthe1997ACMSymposiumonAppliedComputing)通过提取结构化信息和关键词来判定文档相似性。然而,该方法主要应用于英文知识领域,且不能判定多文档抄袭问题。文献《网络环境与机房环境下电子作业反抄袭策略》(付兵谢本贵,2013.3,实验室研究与探索)采用信息隐藏技术对原创信息进行加密,利用高嵌入率的水印算法将秘密信息隐藏到电子作业的字符格式之中,达到侦测抄袭嫌疑的目的。该方法需要对电子作业进行水印处理,包含许多复杂的运算步骤,效率较低,影响文章比对速度,且加大了抄袭检测对服务器的负荷。本专利技术者在文献《基于VSM的电子作业反抄袭系统的设计与实现》(周小平王佳马晓轩,2013.4,实验室研究与探索)通过采用TF-IDF、VSM等算法来规避电子作业抄袭行为。该方法采用TF-IDF模型,虽然解决了一篇文档抄袭多篇文档的行为;但由于每次对新电子作业得抄袭检测都需要重新计算TF和IDF值;因此,其效率较低,抄袭检测速度较慢。本专利技术所使用的向量空间模型(VSM:VectorSpaceModel)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。若有采用VSM模型建立的两个向量A和B,通常采用余弦公式计算相似度,即向量A和B的相似度计算公式为:其中,θ为向量A和B的夹角。通常,使用VSM模型采用TF-IDF方法构建向量中各关键词的权重。TF为单词词频,表示一个单词与某文档的相关性。某单词的TF值通常为该单词在文档中出现的次数除以文档所有单词的总次数。IDF为逆向文档频率,它通常为总文件数除以包含某单词的文件数目的商的对数。TF-IDF方法通常以文档为单位进行计算,它综合了一篇文档同已知所有文档之间相似性的问题,即它考虑了一个文档抄袭多篇文档的情况。然而,由于每次新文档检测都需要重新计算TF和IDF值;因此,增大了计算量,减少了效率。也即,TF-IDF方法在动态文档输入的环境中,适应性较差。综上,目前电子文档和电子作业在抄袭检测方法上存在如下不足:①不能检测多个文档的融合抄袭;②算法复杂度较高,系统效率较低;③在认定两个电子作业存在抄袭的情况下,无法判断谁是抄袭,谁是原创。围绕这些不足,本专利技术者在多年教学经验的基础上,结合“句子的相似是引用,长段落的相似是抄袭”的原则,充分考虑电子作业抄袭的主要方法,以段落为单位,过滤过短段落,以段落关键词及其词频为计算基础,摒弃TF-IDF权重计算方法,换之以合理、高效的关键词权重计算方法,构建段落VSM模型,并采用余弦相似度公式计算段落相似性,进而判定抄袭行为,提高抄袭检测识别效率;同时,引入队列机制,解决了相似度较高情况下,原创作业和抄袭作业的判定问题,得出本专利技术专利。
技术实现思路
本专利技术的目的是避免和杜绝电子作业的抄袭行为,具体涉及一种基于段落抄本文档来自技高网...
【技术保护点】
一种基于段落抄袭检测的电子作业反抄袭系统和方法,其特征在于,所述系统包括如下装置:电子作业提交装置,用于提交电子作业;电子作业接收装置,用于接收、存储通过电子作业提交装置所提交的电子作业,并将电子作业入队抄袭检测队列装置;抄袭检测队列装置,用于以队列方式标记待抄袭检测的电子作业,以待有序检测所提交的电子作业的抄袭行为;电子作业解析装置,用于将电子作业解析成文本,进行段落分解,存储分解后的文本段落,并启动抄袭检测装置进行抄袭检测;抄袭检测装置,用于识别所提交的电子作业是否有抄袭行为;电子作业存储装置,用于存储电子作业、电子作业解析后的文本段落、文本段落关键词及其词频权重、电子作业抄袭状态和账号信息;所述方法包括如下步骤:通过电子作业提交装置提交电子作业;电子作业接收装置接收学生提交的电子作业后,将电子作业入队抄袭检测队列装置,等待抄袭检测;电子作业解析装置从抄袭检测队列装置中出队待检测的电子作业,然后,对其进行文本解析、段落分解,并存储解析后的文本段落,启动抄袭检测装置进行抄袭检测;抄袭检测装置获取待检测的电子作业各文本段落,计算其同已存储的原创段落之间的相似度,融合通过检测的文本段落数检验,判断是否有抄袭行为,并存储抄袭检测结果将。...
【技术特征摘要】
1.一种基于段落抄袭检测的电子作业反抄袭系统,其特征在于,所述系统包括:电子作业提交装置,用于提交电子作业;电子作业接收装置,用于接收、存储通过电子作业提交装置所提交的电子作业,并将电子作业入队抄袭检测队列装置;抄袭检测队列装置,用于以队列方式标记待抄袭检测的电子作业,以待有序检测所提交的电子作业的抄袭行为;电子作业解析装置,用于将电子作业解析成文本,进行段落分解,存储分解后的文本段落,并启动抄袭检测装置进行抄袭检测;抄袭检测装置,用于识别所提交的电子作业是否有抄袭行为;电子作业存储装置,用于存储电子作业、电子作业解析后的文本段落、文本段落关键词及其词频权重、电子作业抄袭状态和账号信息;通过电子作业提交装置提交电子作业;电子作业接收装置接收学生提交的电子作业后,将电子作业入队抄袭检测队列装置,等待抄袭检测;电子作业解析装置从抄袭检测队列装置中出队待检测的电子作业,然后,对其进行文本解析、段落分解,并存储解析后的文本段落,启动抄袭检测装置进行抄袭检测;抄袭检测装置获取待检测的电子作业各文本段落,计算其同已存储的原创段落之间的相似度,融合通过检测的文本段落数检验,判断是否有抄袭行为,并存储抄袭检测结果;所述抄袭检测装置按待检测电子作业文本段落先后顺序逐段检测各段抄袭行为,其抄袭检测包括如下步骤:I、初始化抄袭检测参数,包括当前待检测文本段落序号x=1,已通过检测文本段落总数d=0;II、若x大于待检测电子作业总文本段落数,则转向执行步骤IX;否则,从所述的电子作业存储装置提取待检测电子作业第x个文本段落,标记为Px;III、对文本段落Px进行中文分词,并依据标记各词语词性,根据词性,保留有实质意义的名词、动词、方位词、住所词和时间词并统计其词频,得到文本段落Px的关键词及关键词的词频权重,采用VSM模型标记SX,SX可表示为:SX={(wx1,nx1),(wx2,nx2),…,(wxi,nxi)}其中,wx为文本段落Px的关键词,i为关键词个数,nx为该关键词的词频权重,其计算公式为:式中freql为关键词wxl的词频,max{freqm,m=1,2,…,i}为所有关键词中最高的词频数;当i小于设定阈值时,文本段落Px太短,不进行后续检测;此时,设置x=x+1,转向执行步骤II;IV、将SX结构化存储于所述的电子作业存储装置;V、按顺序从所述的电子作业存储装置中提取已存储的原创段落关键...
【专利技术属性】
技术研发人员:周小平,
申请(专利权)人:北京建筑大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。