科技项目查重方法、系统、计算机设备及存储介质技术方案

技术编号:33361937 阅读:11 留言:0更新日期:2022-05-11 22:17
本申请涉及一种科技项目查重方法、系统、计算机设备及存储介质。该方法包括:对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库,对待分析文本信息以及历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度,通过相似度确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度。从而提高了科技项目的相似度比对速度。从而提高了科技项目的相似度比对速度。

【技术实现步骤摘要】
科技项目查重方法、系统、计算机设备及存储介质


[0001]本申请涉及文本分析
,特别是涉及一种科技项目查重方法、系统、计算机设备及存储介质。

技术介绍

[0002]随着我国科技项目申报数量的逐年递增,项目重复申报现象日益突出。为了有效防止科技项目的重复立项问题,科技项目相似度比对是科技项目申报时的必检测过程。
[0003]传统技术,主要依靠人工审查方式对待申报科技项目进行相似度比对。但是,传统的方式会导致科技项目的相似度比对速度较慢。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高科技项目相似度比对速度的科技项目查重方法、系统、计算机设备及存储介质。
[0005]一种科技项目查重方法,所述方法包括:
[0006]对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;
[0007]对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;
[0008]通过所述相似度,确定所述待分析项目申请书的查重结果。
[0009]一种科技项目查重系统,所述系统包括:
[0010]信息抽取模块,用于对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;
[0011]相似度处理模块,用于对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;
[0012]查重结果确定模块,用于通过所述相似度,确定所述待分析项目申请书的查重结果。
[0013]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0014]对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;
[0015]对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;
[0016]通过所述相似度,确定所述待分析项目申请书的查重结果。
[0017]一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0018]对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;
[0019]对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;
[0020]通过所述相似度,确定所述待分析项目申请书的查重结果。
[0021]上述科技项目查重方法、系统、计算机设备及存储介质,该方法对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库,对待分析文本信息以及历史文本信息进行相似度处理,得到待分析文本信息与历史文本信息之间的相似度,通过相似度确定待分析项目申请书的查重结果;该方法可以对待分析项目申请书与历史项目申请书进行智能查重处理,从而提高了科技项目的相似度比对速度。
附图说明
[0022]图1为一个实施例中科技项目查重方法的流程示意图;
[0023]图2为另一个实施例中获取项目信息库的方法流程示意图;
[0024]图3为另一个实施例中抽取的各事项类型和各事项类型包含的文本信息的展示图;
[0025]图4为另一个实施例中关键词抽取的方法流程示意图;
[0026]图5为另一个实施例中抽取出的关键词展示图;
[0027]图6为另一个实施例中相似度处理的方法流程示意图;
[0028]图7为另一个实施例中相似度处理的具体方法流程示意图;
[0029]图8为另一个实施例中PV-DM模型的框架图;
[0030]图9为另一个实施例中PV-DBOW模型的框架图;
[0031]图10为另一个实施例中确定待分析项目申请书的查重结果的方法流程示意图;
[0032]图11为一个实施例中科技项目查重系统的结构示意图;
[0033]图12为一个实施例中计算机设备的内部结构示意图。
具体实施方式
[0034]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0035]本实施例提供的科技项目查重方法,可以适用于计算机设备中。可选的,上述计算机设备可以为智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理等具有信息处理功能的电子设备,本实施例对计算机设备的具体形式不做限定,下述方法实施例的执行主体以计算机设备为例来进行说明。
[0036]图1为一实施例提供的一种科技项目查重方法的流程示意图。本实施例涉及的是如何对待分析项目申请书与历史项目申请书进行比对,确定查重结果的实现过程,以该方
法应用于计算机设备为例进行说明。如图1所示,该方法包括:
[0037]S1000、对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库。其中,所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息。
[0038]具体的,上述待分析项目申请书可以为待立项的科技项目申请书;上述历史项目申请书可以为当年之前每年中已立项申请过的科技项目申请书。在本实施例中,待分析项目申请书的数量可以为一件,历史项目申请书的数量可以为已立项申请过的多件项目申请书。可选的,项目申请书中的各事项类型可以包括项目目录、项目标题、项目摘要、主要研究内容、技术路线、预期目标和/或项目总结等。可选的,不同时间的项目申请书具有的项目布局结构可以不相同。
[0039]需要说明的是,计算机设备可以对待分析项目申请书进行信息抽取,抽取出待分析项目申请书中各事项类型下包含的所有文本信息,并对历史项目申请书进行信息抽取,抽取出历史项目申请书中各事项类型下包含的所有文本信息,并将抽取到的所有文本信息组成项目信息库。信息抽取时,不同时期的项目申请书的布局结构不同,因此,需要采用不同的抽取方式对各事项类型下的文本信息进行抽取。
[0040]其中,项目申请书涉及的项目类型可以为继保自动化组、输电组、配电组、发电组、通信与信息组、计量营销组、系统运行与智能电网组、变电组等。在本实施例中,在S1000中的步骤执行之前,待分析项目申请书和历史项目申请书的文本类型为doc格式时,计算机设备需要先本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种科技项目查重方法,其特征在于,所述方法包括:对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;通过所述相似度,确定所述待分析项目申请书的查重结果。2.根据权利要求1所述的方法,其特征在于,所述待分析项目申请书中各事项类型的待分析文本信息包括:所述待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息中的至少一个;所述历史项目申请书中各事项类型的历史文本信息包括:所述历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息中的至少一个。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述待分析主要研究内容进行小标题抽取,得到待分析主要研究内容小标题文本信息;对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息;以及优选地,所述项目信息库中还包括所述待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史主要研究内容小标题文本信息以及历史项目关键词文本信息。4.根据权利要求3所述的方法,其特征在于,所述对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息,包括:对所述待分析项目申请书进行分词处理,得到分词结果;对所述分词结果进行词频-逆文档频率处理,获取所述待分析项目关键词文本信息;以及优选地,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,包括:根据所述待分析项目申请书中各事项类型的待分析文本信息的长度和所述历史项目申请书中各事项类型的历史文本信息的长度,确定所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型;所述文本类型包括长文本和短文本;根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度。5.根据权利要求4所述的方法,其特征在于,根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,包括:对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待
分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度;对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以...

【专利技术属性】
技术研发人员:汪桢子章彬汪伟何维
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1