一种科技文献的题录数据提取方法技术

技术编号:27616577 阅读:18 留言:0更新日期:2021-03-10 10:48
本发明专利技术提供一种科技文献的题录数据提取方法,包括以下步骤:S1、上传科技文献PDF至存储模块;S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配;S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过。可实现自动提取科技文献中题录数据用于文件的归档和查看,更可以深度挖掘科技文献中的参数数据用于科研研究,实现了科研文献的高可用,发挥文献最大价值。发挥文献最大价值。发挥文献最大价值。

【技术实现步骤摘要】
一种科技文献的题录数据提取方法


[0001]本专利技术涉及计算机数据提取
,具体涉及一种科技文献的题录数据提取方法。

技术介绍

[0002]科技文献是科技发展技术积累的结晶,是现代化企业科学研究、组织生产、提高产品质量必要技术文献。随着科学技术不断发展,科技文献的积累日益丰富,互联网拥有很多公开的PDF科技文献资源,资源中包含了众多有价值、值得挖掘的信息。但是和传统网页,Word,txt等文档相比,科技文献PDF格式多样,也存在缺乏结构信息,提取题录数据,非常困难,不便于科技人员快速对文献的检索。
[0003]在中国专利申请公布号为CN 109726369A中公开了一种基于标准文献的智能模板化题录技术实现方法,该申请文献中通过提供的基于标准文献的智能模板化题录技术实现方法,解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题,通过对双层浮文PDF文字读取技术进行封装,把标准文献图像转换成纯文本TXT,对标准题录加工流程进行了自动化和电子化处理,实现对标准题录的自动采集。但是对于一些特殊的文献格式,并没有指定的标准格式进行匹配,无法准确快速处理题录的快速提取。
[0004]现有技术没有提供一体化的文献提取方案,大多数技术只能做到一两个点,例如:对PDF文档进行OCR操作、从PDF文档提取篇章结构、从PDF文档提取图片、从PDF文档提取表格等。处理时需要准备多个软件配合,费时费力。并且现有的支持科技文献种类较少,只支持期刊论文、标准等一种或两种,覆盖面窄,容易丢失文献中的重要信息。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种科技文献的题录数据提取方法,解决了现有技术中无法识别多种格式下科技文献的题录数据提取的问题。
[0006]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0007]一种科技文献的题录数据提取方法,包括以下步骤:
[0008]S1、上传科技文献PDF至存储模块,同时记录上传者、以及上传时间信息;
[0009]S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;
[0010]S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,并同时输出匹配结果,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配,直至匹配结果符合要求,向审核人员提交;
[0011]S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过,审核通过后将题录数据保存至数据库中。
[0012]进一步的,所述S2中,内置OCR模块包括对科技报告、专利数据、电子书籍、期刊论文、学位论文、标准文件。
[0013]进一步的,所述S2中,确定数据位置标记信息具体操作为:依据关键词确定、字体大小和字体、段落序号确定数据位置标记信息。
[0014]进一步的,所述S4中,匹配结果不符合要求时,首先判定是否需要通过第三方OCR模块解析,若需要则通过第三方OCR模块将数据位置标记信息进行重新解析后匹配,若不需要,则采用人工修改方式修改解析结果后再匹配。
[0015]本专利技术提供了一种科技文献的题录数据提取方法,通过。
[0016]1、本专利技术提供完备的科技文献数据提取体系,可实现自动提取科技文献中题录数据用于文件的归档和查看,更可以深度挖掘科技文献中的参数数据用于科研研究,实现了科研文献的高可用,发挥文献最大价值。
[0017]2、对于复杂的没有指定标准格式的科技文献,可采取人工处理或者自行添加第三方OCR模块对科技文献目录的快速提取,大大节省了检索的时间,提高了检索效率。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1本专利技术的科技文献的题录数据提取方法流程图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]如图1所示,本专利技术提供一种科技文献数据数字化题录数据提取方法,包括完整的科技文献PDF上传、科技文献PDFOCR、科技文献PDF题录数据提取、科技文献PDF题录数据审核功能,具体步骤如下所示:
[0022]S1、使用者上传科技文献PDF至存储模块,同时存储模块会实时记录上传者以及上的时间信息。
[0023]S2、通过内置OCR模块对科技文献PDF进行题录数据解析,目前解析模块我们提供六种科技文献的解析模块软件:科技报告、专利数据、电子书籍、期刊论文、学位论文,以及标准模板。例如:对于期刊论文,解析模块会自动提取题名、期号、作者、作者单位、出版年份、关键词、摘要、结论、基金项目、实验等信息。
[0024]同时解析模块采用多种方式来确定科技文献段落分布,主要包括:1.依据关键词确定段落位置;2.根据字体大小和字体确定段落位置;3.根据段落序号确定段落位置。同时根据需要解析模块也可以将提取出的文本自动进行优化,例如:将时间有关的段落自动转换为易于阅读的时间戳,将大段落全角英文自动转换为半角英文,自动去除中文段落中无意义的空格,最后向上传者输出解析结果。
[0025]软件在自动解析时也保存了解析结果在科技文献PDF中的定位,上传者可以点击自动解析结果跳转到科技文献PDF的对应位置,检查解析结果是否正确,简单操作,可实现内容的快速查找。
[0026]这种运算方式可减少运算过程,内置OCR模块自动将解析出的数据位置标记信息与标准模板中数据库字段名称才用字符串相似度算法进行匹配,只有类型相同的字段和参数数据才能自动匹配,例如,文本字段不能匹配到数值参数数据。同时数据位置标记信息的展示结果在对应的原始科技文献PDF中定位相匹配,用户可以点击自动解析结果跳转到科技文献PDF的对应位置,检查解析结果是否正确。
[0027]S3、数据位置标记信息采用网络云方式或翻译库方式与存储模块中的标准模块进行自动匹配,并输出匹配结果。若对匹配结果符合理想结果,则将匹配结果参数数据向审核人员提交;若对匹配解果不符合理想,则先判断是否有需要通过第三方OCR模块,若不需要,则通过上传者手动修改后即可将匹配结果反馈给审核人员,若需要第三方OCR模块,则可以多线程对科技文献PDF进行OCR操作,通过对OCR SDK的配置,输出效果最佳的OCR科技文献PDF。在OCR进度完成后,会自动跳到S2,重新进行自动解析。其中人工修改时提供了框选的方式,可以通过框选坐标直接获取对应坐标区域的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种科技文献的题录数据提取方法,其特征在于,包括以下步骤:S1、上传科技文献PDF至存储模块,同时记录上传者、以及上传时间信息;S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,并同时输出匹配结果,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配,直至匹配结果符合要求,向审核人员提交;S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过,审核通过后将题录数据保存至数据库中。2.如权...

【专利技术属性】
技术研发人员:王卓李皓琛王者刘昌鑫王英海
申请(专利权)人:成都材智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1