一种论文查重方法、系统及设备技术方案

技术编号:34776175 阅读:21 留言:0更新日期:2022-08-31 19:48
本发明专利技术公开一种论文查重方法、系统和设备,该方法通过针对每种预设类型的字段信息,提取待查重论文的对应的至少一个字段信息,获取预设论文库中与每种预设类型的字段信息对应的对比论文,得到论文对比子库,筛选出了最有可能与待查重论文重复的对比论文,后续仅在论文对比子库中进行查重,缩短了查重耗费的时间,能够满足短时间内的查重需求;另外,本发明专利技术实施例先将待查重论文与论文对比子库中的每一对比论文进行对比,得到疑似重复句,再获取每一疑似重复句中最长连续重复子句的字数,最后通过判断每一疑似重复句中最长连续重复子句的字数是否超过预设字数阈值,来确定疑似重复句是否为重复句,进一步提高了查重的准确性和可靠性。和可靠性。和可靠性。

【技术实现步骤摘要】
一种论文查重方法、系统及设备


[0001]本专利技术涉及一种论文查重方法、系统及设备。

技术介绍

[0002]目前,论文查重技术在科研院校、期刊杂志出版商等机构有着广泛的应用,现有的论文查重技术大多先直接将待查重论文与论文库中的对比论文一一对比,得到待查重论文与每篇对比论文的重复情况,如通过直接获取待查重论文与论文库的对比论文的最长公共子序列的方式进行对比,再综合待查重论文与每篇对比论文的重复情况计算出最终的重复率。

技术实现思路

[0003]本专利技术人发现,现有技术中的论文查重方法,虽然可以保证查重结果的准确性和可靠性,但其问题在于,一方面查重需要对比的论文数量极大,另一方面查重算法复杂度很高,因此整个查重过程耗时较长。特别是在毕业季或者投稿截止日期前,由于短时间内有相当大的查重需求,而查重过程耗时较长,导致无法快速获取查重结果。鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种论文查重方法、系统及设备。
[0004]作为本专利技术实施例的第一方面,本专利技术实施例提供一种论文查重方法,包括:
[0005]针对每种预设类型的字段信息,使用预设解析模型提取待查重论文的对应的至少一个字段信息;
[0006]根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集;
[0007]将得到的各个论文对比集进行比较,去除所述各个论文对比集中的重复对比论文,得到论文对比子库;
[0008]将待查重论文与所述论文对比子库中的每一对比论文进行对比,得到疑似重复句;
[0009]针对每一疑似重复句,获取所述疑似重复句中最长连续重复子句的字数;
[0010]判断所述疑似重复句中最长连续重复子句的字数是否超过预设字数阈值;
[0011]若是,对当前重复字数累加所述疑似重复句中最长连续重复子句的字数得到待查重论文的重复字数总数;
[0012]根据待查重论文的重复字数总数和待查重论文的总数得到待查重论文的重复率。
[0013]在一个或一些实施例中,所述预设类型的字段信息包括分类号字段信息;
[0014]所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:
[0015]获取所述预设论文库中与所述待查重论文的分类号字段信息相同的第一对比论文;
[0016]判断所述第一对比论文的发表时间是否在预设时间段内;
[0017]若是,筛选出所述第一对比论文;
[0018]将筛选出的至少一篇所述第一对比论文,构成第一论文集。
[0019]在一个或一些实施例中,所述预设类型的字段信息包括标题字段信息;
[0020]所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集包括:
[0021]确定所述待查重论文的标题字段信息对应的第一标题句向量;
[0022]确定所述预设论文库中的第二对比论文的标题字段信息对应的第二标题句向量;
[0023]确定所述第一标题句向量和所述第二标题句向量的第一余弦相似度;
[0024]判断所述第一余弦相似度是否超过第一预设阈值;
[0025]若是,筛选出所述第二对比论文;
[0026]将筛选出的至少一篇所述第二对比论文,构成第二论文对比集;
[0027]所述确定所述待查重论文的标题字段信息对应的第一标题句向量,包括:
[0028]对所述待查重论文的标题字段信息进行分词和去停用词处理得到第一标题单词;
[0029]使用词向量模型计算所述第一标题单词对应的第一标题词向量;
[0030]根据至少一个所述第一标题词向量求平均值得到所述标题字段信息对应的第一标题句向量;
[0031]所述确定所述预设论文库中的第二对比论文的标题字段信息对应的第二标题句向量,包括:
[0032]对所述预设论文库的第二对比论文的标题字段信息进行分词和去停用词处理得到对应的第二标题单词;
[0033]使用词向量模型计算所述第二标题单词对应的第二标题词向量;
[0034]对至少一个第二标题词向量求平均值得到所述标题字段信息对应的第二标题句向量。
[0035]在一个或一些实施例中,所述预设类型的字段信息包括摘要字段信息;
[0036]所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:
[0037]确定所述待查重论文的摘要字段信息对应的第一摘要句向量;
[0038]确定所述预设论文库中的第三对比论文的摘要字段信息对应的第二摘要句向量;
[0039]确定所述第一摘要句向量和所述第二摘要句向量的第二余弦相似度;
[0040]判断所述第二余弦相似度是否超过第二预设阈值;
[0041]若是,筛选出所述第三对比论文;
[0042]将筛选出的至少一所述第三对比论文,构成第三论文对比集。
[0043]在一个或一些实施例中,所述预设类型的字段信息包括关键词字段信息;
[0044]所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:
[0045]确定所述待查重论文的关键词字段信息的至少一个第一关键词对应的第一关键词词向量;
[0046]确定所述预设论文库的第四对比论文的关键词字段信息的至少一个第二关键词
对应的第二关键词词向量;
[0047]确定所述第一关键词词向量与所述第二关键词词向量的第三余弦相似度;
[0048]获取大于或等于第二预设阈值的所述第三余弦相似度的数量,作为第一数量;
[0049]获取第一关键词的数量和第二关键词数量中的较小值,作为第二数量;
[0050]判断第一数量是否大于第二数量;
[0051]若是,筛选出所述第四对比论文;
[0052]将筛选出的至少一篇所述第四对比论文,构成第四论文对比集。
[0053]在一个或一些实施例中,所述预设类型的字段信息包括参考文献字段信息;
[0054]所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:
[0055]获取所述待查重论文的参考文献字段信息;
[0056]从所述预设论文库中筛选出与所述参考文献字段信息对应的第五对比论文;
[0057]将筛选出的至少一篇所述第五对比论文,构成第五论文对比集。
[0058]在一个或一些实施例中,将待查重论文与所述论文对比子库中的每一对比论文进行对比,得到疑似重复句,包括:
[0059]提取所述待查重论文的第一正文文本,对所述第一正文文本进行分句和去停用词处理得到第一词句;
[0060]提取所述论文对比子库中的每一对比论文的第二正文文本,对所述第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种论文查重方法,其特征在于,包括:针对每种预设类型的字段信息,使用预设解析模型提取待查重论文的对应的至少一个字段信息;根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集;将得到的各个论文对比集进行比较,去除所述各个论文对比集中的重复对比论文,得到论文对比子库;将待查重论文与所述论文对比子库中的每一对比论文进行对比,得到疑似重复句;针对每一疑似重复句,获取所述疑似重复句中最长连续重复子句的字数;判断所述疑似重复句中最长连续重复子句的字数是否超过预设字数阈值;若是,对当前重复字数累加所述疑似重复句中最长连续重复子句的字数得到待查重论文的重复字数总数;根据待查重论文的重复字数总数和待查重论文的总数得到待查重论文的重复率。2.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括分类号字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:获取所述预设论文库中与所述待查重论文的分类号字段信息相同的第一对比论文;判断所述第一对比论文的发表时间是否在预设时间段内;若是,筛选出所述第一对比论文;将筛选出的至少一篇所述第一对比论文,构成第一论文集。3.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括标题字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集包括:确定所述待查重论文的标题字段信息对应的第一标题句向量;确定所述预设论文库中的第二对比论文的标题字段信息对应的第二标题句向量;确定所述第一标题句向量和所述第二标题句向量的第一余弦相似度;判断所述第一余弦相似度是否超过第一预设阈值;若是,筛选出所述第二对比论文;将筛选出的至少一篇所述第二对比论文,构成第二论文对比集;所述确定所述待查重论文的标题字段信息对应的第一标题句向量,包括:对所述待查重论文的标题字段信息进行分词和去停用词处理得到第一标题单词;使用词向量模型计算所述第一标题单词对应的第一标题词向量;根据至少一个所述第一标题词向量求平均值得到所述标题字段信息对应的第一标题句向量;所述确定所述预设论文库中的第二对比论文的标题字段信息对应的第二标题句向量,包括:对所述预设论文库的第二对比论文的标题字段信息进行分词和去停用词处理得到对应的第二标题单词;
使用词向量模型计算所述第二标题单词对应的第二标题词向量;对至少一个第二标题词向量求平均值得到所述标题字段信息对应的第二标题句向量。4.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括摘要字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个字段信息,从预设论文库中筛选得到对应的论文对比集,包括:确定所述待查重论文的摘要字段信息对应的第一摘要句向量;确定所述预设论文库中的第三对比论文的摘要字段信息对应的第二摘要句向量;确定所述第一摘要句向量和所述第二摘要句向量的第二余弦相似度;判断所述第二余弦相似度是否超过第二预设阈值;若是,筛选出所述第三对比论文;将筛选出的至少一篇所述第三对比论文,构成第三论文对比集。5.根据权利要求1所述的论文查重方法,其特征在于,所述预设类型的字段信息包括关键词字段信息;所述根据获取的每种预设类型的字段信息的所述至少一个...

【专利技术属性】
技术研发人员:刘健博王忠璐陶慧张士伟
申请(专利权)人:武汉数博科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1