一种基于区块链的科技论文大数据抄袭检测方法及系统技术方案

技术编号:35248422 阅读:12 留言:0更新日期:2022-10-19 09:56
本发明专利技术公开了一种基于区块链的科技论文大数据抄袭检测方法及系统,涉及数据处理技术领域。该方法包括:数据上链;获取待检测论文图像;对图表部分进行目标检测;计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,若大于预置的相似度阈值,则认定为疑似抄袭论文图像;反之,则对字符区域部分进行超分辨率重建;计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,若大于预置的相似度阈值,则认定为疑似抄袭论文图像。本发明专利技术采用多尺度目标检测、基于多特征算子的相似度检测、基于多卷积核的OCR匹配等方法,进行精准的识别检测;结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。实可靠性。实可靠性。

【技术实现步骤摘要】
一种基于区块链的科技论文大数据抄袭检测方法及系统


[0001]本专利技术涉及数据处理
,具体而言,涉及一种基于区块链的科技论文大数据抄袭检测方法及系统。

技术介绍

[0002]随着我国科技水平的不断提升,越来越多的科研人员进行了深度的科技研究,也发表了越来越多的科技论文。然而,论文抄袭的情况却屡屡出现,严重损害了科研人员的合法权益。
[0003]传统的抄袭检测主要通过人工核查等方式,不仅消耗了巨大的人力资源,而且无法保证较高的精准度。虽然,目前部分科技论文抄袭检测系统已经用到了字符识别、图像比对、目标检测等现代技术,但其仍然无法保持较高的正确率,无法进行精准高效的论文抄袭检测识别。区块链作为近几年新兴的技术,在多个领域发挥了重要的作用,可以为科技论文大数据抄袭检测提供有效的技术支持。因此,如何充分利用区块链技术并深度结合当下的主流信息技术,实现高质量的科技论文大数据抄袭检测成为一个新的问题。

技术实现思路

[0004]为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种基于区块链的科技论文大数据抄袭检测方法及系统,采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;同时,结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。
[0005]本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供一种基于区块链的科技论文大数据抄袭检测方法,包括以下步骤:获取并将目标用户的科技论文信息上传至区块链中进行存储,上述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
[0006]为了解决现有技术中无法进行精准高效的论文抄袭检测识别的技术问题,本专利技术采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;并结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。首先,利用多尺度目标检测技术对基准论文和待检测论文中的图表部分进行目标检测,显著地提升了图表区域检测的精准度;然后,利用基于多特征算子的相似度检测方法计算图表之间的相似度,显著地提升了图表间相似度计算的精度。还利用基于多卷积核的OCR匹配方法,将基准论文和待检测论文的字符进行识别比对,显著地提升了字符识别比对的精度。在抄袭检测系统中应用了区块链技术,实现了科技论文相关核心信息的上链存证,显著地提升了检测的可靠性。
[0007]基于第一方面,在本专利技术的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:获取并根据审查人员的核查结果提取区块链中对应的论文完成人身份信息、论文完成时间和科技论文图像,并生成追责认定信息。
[0008]基于第一方面,在本专利技术的一些实施例中,上述利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果的方法包括以下步骤:利用SIFT特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第一图表相似度结果;利用GIST特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第二图表相似度结果;利用HOG特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第三图表相似度结果。
[0009]基于第一方面,在本专利技术的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:若第一图表相似度结果、第二图表相似度结果和第三图表相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
[0010]基于第一方面,在本专利技术的一些实施例中,上述利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果的方法包括以下步骤:利用平滑卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像
进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第一字符相似度结果;利用锐化卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第二字符相似度结果;利用去噪卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第三字符相似度结果。
[0011]基于第一方面,在本专利技术的一些实施例中,上述根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度的方法包括以下步骤:将基准字符识别结果中的各个字符和待检测字符识别结果中的各个字符进行匹配,生成匹配结果;根据匹配结果和预置的匹配比例预置计算基准论文图像和待检测论文图像的字符相似度。
[0012]基于第一方面,在本专利技术的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:若第一字符相似度结果、第二字符相似度结果和第三字符相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,包括以下步骤:获取并将目标用户的科技论文信息上传至区块链中进行存储,所述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。2.根据权利要求1所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,还包括以下步骤:获取并根据审查人员的核查结果提取区块链中对应的论文完成人身份信息、论文完成时间和科技论文图像,并生成追责认定信息。3.根据权利要求1所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,所述利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果的方法包括以下步骤:利用SIFT特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第一图表相似度结果;利用GIST特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第二图表相似度结果;利用HOG特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第三图表相似度结果。4.根据权利要求3所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,还包括以下步骤:若第一图表相似度结果、第二图表相似度结果和第三图表相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。5.根据权利要求1所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在
于,所述利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果的方法包括以下步骤:利用平滑卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第一字...

【专利技术属性】
技术研发人员:于水娜
申请(专利权)人:北京吉道尔科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1