【技术实现步骤摘要】
一种论文查重方法、系统及设备
[0001]本专利技术涉及一种论文查重方法、系统及设备。
技术介绍
[0002]目前,论文查重技术在科研院校、期刊杂志出版商等机构有着广泛的应用,现有的论文查重技术大多先直接将待查重论文与论文库中的对比论文一一对比,得到待查重论文与每篇对比论文的重复情况,如通过直接获取待查重论文与论文库的对比论文的最长公共子序列的方式进行对比,再综合待查重论文与每篇对比论文的重复情况计算出最终的重复率。
技术实现思路
[0003]本专利技术人发现,现有技术中的论文查重方法,虽然可以保证查重结果的准确性和可靠性,但其问题在于,一方面查重需要对比的论文数量极大,另一方面查重算法复杂度很高,因此整个查重过程耗时较长。特别是在毕业季或者投稿截止日期前,由于短时间内有相当大的查重需求,而查重过程耗时较长,导致无法快速获取查重结果。鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种论文查重方法、系统及设备。
[0004]作为本专利技术实施例的第一方面,本专利技术实施例提供一种论文查重方法,包括:
[0005]针对每种预设类型的字段信息,使用预设解析模型提取待查重论文的对应的至少一个字段信息;
[0006]根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集;
[0007]将得到的各个论文对比集进行比较,去除所述各个论文对比集中的重复对比论文,得到论文对比子库;
[0008]将待查重论 ...
【技术保护点】
【技术特征摘要】
1.一种论文查重方法,其特征在于,包括:针对每种预设类型的字段信息,使用预设解析模型提取待查重论文的对应的至少一个字段信息;根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集;将得到的各个论文对比集进行比较,去除所述各个论文对比集中的重复对比论文,得到论文对比子库;将待查重论文与所述论文对比子库中的每一对比论文进行对比,得到疑似重复句;针对每一疑似重复句,获取所述疑似重复句中最长连续重复子句的字数;判断所述疑似重复句中最长连续重复子句的字数是否超过预设字数阈值;若是,对当前重复字数累加所述疑似重复句中最长连续重复子句的字数得到待查重论文的重复字数总数;根据待查重论文的重复字数总数和待查重论文的总数得到待查重论文的重复率。2.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括分类号字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:获取所述预设论文库中与所述待查重论文的分类号字段信息相同的第一对比论文;判断所述第一对比论文的发表时间是否在预设时间段内;若是,筛选出所述第一对比论文;将筛选出的至少一篇所述第一对比论文,构成第一论文集。3.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括标题字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集包括:确定所述待查重论文的标题字段信息对应的第一标题句向量;确定所述预设论文库中的第二对比论文的标题字段信息对应的第二标题句向量;确定所述第一标题句向量和所述第二标题句向量的第一余弦相似度;判断所述第一余弦相似度是否超过第一预设阈值;若是,筛选出所述第二对比论文;将筛选出的至少一篇所述第二对比论文,构成第二论文对比集;所述确定所述待查重论文的标题字段信息对应的第一标题句向量,包括:对所述待查重论文的标题字段信息进行分词和去停用词处理得到第一标题单词;使用词向量模型计算所述第一标题单词对应的第一标题词向量;根据至少一个所述第一标题词向量求平均值得到所述标题字段信息对应的第一标题句向量;所述确定所述预设论文库中的第二对比论文的标题字段信息对应的第二标题句向量,包括:对所述预设论文库的第二对比论文的标题字段信息进行分词和去停用词处理得到对应的第二标题单词;
使用词向量模型计算所述第二标题单词对应的第二标题词向量;对至少一个第二标题词向量求平均值得到所述标题字段信息对应的第二标题句向量。4.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括摘要字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:确定所述待查重论文的摘要字段信息对应的第一摘要句向量;确定所述预设论文库中的第三对比论文的摘要字段信息对应的第二摘要句向量;确定所述第一摘要句向量和所述第二摘要句向量的第二余弦相似度;判断所述第二余弦相似度是否超过第二预设阈值;若是,筛选出所述第三对比论文;将筛选出的至少一篇所述第三对比论文,构成第三论文对比集。5.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括关键词字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个...
【专利技术属性】
技术研发人员:刘健博,王忠璐,陶慧,张士伟,
申请(专利权)人:武汉数博科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。