【技术实现步骤摘要】
科技项目查重方法、系统、计算机设备及存储介质
[0001]本申请涉及文本分析
,特别是涉及一种科技项目查重方法、系统、计算机设备及存储介质。
技术介绍
[0002]随着我国科技项目申报数量的逐年递增,项目重复申报现象日益突出。为了有效防止科技项目的重复立项问题,科技项目相似度比对是科技项目申报时的必检测过程。
[0003]传统技术,主要依靠人工审查方式对待申报科技项目进行相似度比对。但是,传统的方式会导致科技项目的相似度比对速度较慢。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提高科技项目相似度比对速度的科技项目查重方法、系统、计算机设备及存储介质。
[0005]一种科技项目查重方法,所述方法包括:
[0006]对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;
[0007]对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;
[0008]通过所述相似度,确定所述待分析项目申请书的查重结果。
[0009]一种科技项目查重系统,所述系统包括:
[0010]信息抽取模块,用于对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项 ...
【技术保护点】
【技术特征摘要】
1.一种科技项目查重方法,其特征在于,所述方法包括:对待分析项目申请书以及历史项目申请书进行信息抽取,获取项目信息库;所述项目信息库包括所述待分析项目申请书中各事项类型的待分析文本信息和所述历史项目申请书中各事项类型的历史文本信息;对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度;通过所述相似度,确定所述待分析项目申请书的查重结果。2.根据权利要求1所述的方法,其特征在于,所述待分析项目申请书中各事项类型的待分析文本信息包括:所述待分析项目申请书中的待分析项目标题文本信息、待分析项目摘要文本信息、待分析主要研究内容文本信息、待分析技术路线文本信息以及待分析预期目标文本信息中的至少一个;所述历史项目申请书中各事项类型的历史文本信息包括:所述历史项目申请书中的历史项目标题文本信息、历史项目摘要文本信息、历史主要研究内容文本信息、历史技术路线文本信息以及历史预期目标文本信息中的至少一个。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述待分析主要研究内容进行小标题抽取,得到待分析主要研究内容小标题文本信息;对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息;以及优选地,所述项目信息库中还包括所述待分析主要研究内容小标题文本信息、待分析项目关键词文本信息、历史主要研究内容小标题文本信息以及历史项目关键词文本信息。4.根据权利要求3所述的方法,其特征在于,所述对所述待分析项目申请书进行关键词抽取,得到待分析项目关键词文本信息,包括:对所述待分析项目申请书进行分词处理,得到分词结果;对所述分词结果进行词频-逆文档频率处理,获取所述待分析项目关键词文本信息;以及优选地,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,包括:根据所述待分析项目申请书中各事项类型的待分析文本信息的长度和所述历史项目申请书中各事项类型的历史文本信息的长度,确定所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型;所述文本类型包括长文本和短文本;根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度。5.根据权利要求4所述的方法,其特征在于,根据所述待分析项目申请书中各事项类型的文本类型和所述历史项目申请书中各事项类型的文本类型,所述对所述待分析文本信息以及所述历史文本信息进行相似度处理,得到所述待分析文本信息与所述历史文本信息之间的相似度,包括:对所述待分析项目标题文本信息、所述待分析主要研究内容小标题文本信息、所述待
分析项目关键词文本信息、所述历史项目标题文本信息、所述历史主要研究内容小标题文本信息、所述历史项目关键词文本信息进行短文本相似度处理,得到所述待分析项目标题文本信息与所述历史项目标题文本信息的第一相似度、所述待分析主要研究内容小标题文本信息与所述历史主要研究内容小标题文本信息的第二相似度以及所述待分析项目关键词文本信息与所述历史项目关键词文本信息的第三相似度;对所述待分析项目摘要文本信息、所述待分析主要研究内容文本信息、所述待分析技术路线文本信息、所述待分析预期目标文本信息、所述历史项目摘要文本信息、所述历史主要研究内容文本信息、所述历史技术路线文本信息以及所述历史预期目标文本信息进行长文本相似度处理,得到所述待分析项目摘要文本信息与所述历史项目摘要文本信息的第四相似度、所述待分析主要研究内容文本信息与所述历史主要研究内容文本信息的第五相似度、所述待分析技术路线文本信息的与所述历史技术路线文本信息的第六相似度以...
【专利技术属性】
技术研发人员:汪桢子,章彬,汪伟,何维,
申请(专利权)人:深圳供电局有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。