一种科技文献的参数数据提取方法技术

技术编号:27616578 阅读:31 留言:0更新日期:2021-03-10 10:48
本发明专利技术提供一种科技文献的参数数据提取方法,包括以下步骤:S1、上传科技文献PDF格式文件;S2、通过参数解析模块对科技文献PDF中的参数进行自动提取,获得参数数据,再通过与目标数据库字段匹配,同时显示参数数据所在的位置信息,并显示匹配结果;S3、将获得的参数数据建立新文档并与科技文献PDF原文对应部分同时展示;S4、上传者手动修改并完善新文档对应参数数据部分的录入,然后保存至数据库中。根据使用需要可通过对于科研文献内有价值的内容,本发明专利技术采用提取有价值、实用的参数数据内容,使用参数解析模块准确提取图片、表格、科学研究参数数据等。帮助科学研究人员轻松用PDF科学文件建立起属于自己的参数数据资料库。学文件建立起属于自己的参数数据资料库。学文件建立起属于自己的参数数据资料库。

【技术实现步骤摘要】
一种科技文献的参数数据提取方法


[0001]本专利技术涉及计算机数据提取领域,具体涉及一种科技文献的参数数据提取方法。

技术介绍

[0002]科技文献是科技发展技术积累的结晶,是现代化企业科学研究、组织生产、提高产品质量必要技术文献。随着科学技术不断发展,科技文献的积累日益丰富,互联网拥有很多公开的PDF科技文献资源,资源中包含了众多有价值、值得挖掘的信息。但是和传统网页,Word,txt等文档相比,科技文献PDF格式多样,也存在缺乏结构信息,提取表格数据,图片数据等非常困难。
[0003]在申请号为200910076809.1的中国专利“结合OCR技术的PDF文字提取方法”,该专利通过在字符计算机内码确认过程中结合OCR技术,通过解析和转换获得PDF中字符的编码、位置、字符图像、字体、字号等信息,实现对文献PDF文字的提取,但是在实际使用过程中,科技文献PDF格式多样,甚至出现图片文字等,这种OCR技术容易导致乱码率较高。同时对于图片以及表格中的数据参数提取极为不便。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种科技文献的参数数据提取方法,解决了现有技术中科技文献PDF的数据参数提取不便的技术问题。
[0005]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0006]一种科技文献的参数数据提取方法,包括以下步骤:
[0007]S1、上传科技文献PDF格式文件;
[0008]S2、通过参数解析模块对科技文献PDF中的参数进行自动提取,获得参数数据,再通过与目标数据库字段匹配,同时显示参数数据所在的位置信息,并显示匹配结果;
[0009]S3、将获得的参数数据建立新文档并与科技文献PDF原文对应部分同时展示;
[0010]S4、上传者手动修改并完善新文档对应参数数据部分的录入,然后保存至数据库中。
[0011]进一步的,所述S2中,参数解析模块提取科技文献PDF中的数字数值,以及图片、表格中的参数数字数值。
[0012]进一步的,所述S2中,参数解析模块根据科技文献PDF原文中图片对象的追踪,获得图片坐标,并将图片保存为png格式;同时自动提取图片下方的文字说明,根据图片坐标和整页坐标计算图片所在的位置,并提取对应位置信息。
[0013]进一步的,所述S2中,参数解析模块根据科技文献PDF原文中表格进行最终,栅格表和色块表,可以做到自动提取并识别,并获得表哥所对应的位置位置信息。
[0014]进一步的,所述S2中,参数解析模块通过网络通信方式存储目标数据库字段,并与题录数据进行匹配。
[0015]进一步的,所述S2中,参数解析模块通过内部数据库方式存储目标数据库字段,并
与题录数据进行匹配。
[0016]进一步的,所述S2中,参数解析模块采用字符串相似度算法进行匹配。
[0017]进一步的,所述S4中,上传者手动修改使用框选式参数数据提取方式操作。
[0018]本专利技术提供了一种科技文献的参数数据提取方法,通过。
[0019]1、根据使用需要可通过对于科研文献内有价值的内容,本专利技术采用提取有价值、实用的参数数据内容,使用参数解析模块准确提取图片、表格、科学研究参数数据等。帮助科学研究人员轻松用PDF科学文件建立起属于自己的参数数据资料库。
[0020]2、本专利技术根据需要,手动拖拽调整匹配结果,以便完善参数匹配结果,同时根据需要进行参数的对比和修改操作,大大便捷了参数的操作。
附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1本专利技术的科技文献数据数字化参数数据提取方法流程图。
具体实施方式
[0023]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]如图1所示,本专利技术实施例提供一种科技文献数据数字化参数数据提取方法,包括如下步骤:
[0025]S1、上传科技文献PDF格式文件。
[0026]S2、通过参数解析模块对科技文献PDF中的题录数据进行自动提取,获得参数数据,再通过与目标数据库字段匹配,本步骤重点提取数值、图片、表格等参数类数据,参数解析模块可以自动提取数值,使用正则表达式匹配整数,浮点数,科学计数法等数学数值;例如所在提取图片中的相关参数时,根据对科技文献PDF中图片对象的追踪,获取图片坐标,将文件保存为png格式图片;同时可以自动提取图片下方的文字说明,根据图片坐标和整页坐标计算图片说明的位置,提取位置文本,避免在图片下方的文字以图片格式存在被忽视;提取表格时,对于常用的栅格表和色块表,可以做到自动提取并识别。
[0027]参数解析模块自动获取参数数据库字段,可以通过网络通信方式获取目标数据库的字段,获取字段名称等信息,同时也可以在存储模块中输入常用翻译数据库,以便将参数数据名称翻译为多种语言,增加匹配命中率。参数解析模块获得的参数数据与目标数据库字段采用字符串相似度算法进行匹配,只有类型相同的字段和参数数据才能自动匹配,以便提高其运算效率,并提高准确度。
[0028]S3、随后展示匹配结果,同时在界面展示PDF原文和题录数据,便于操作人员校对参数数据。方便在进行参数数据修改时,对照原文PDF比较。
[0029]S4、对于解析结果不满意的参数数据,操作人员可以进行手动修改。软件提供了非
常便捷的框选式参数数据提取,无论是想获取科技文献PDF中的图片,表格,文本,只需要在科技文献PDF中框选,软件就可以识别坐标并自动解析出需要的结果,同时将参数数据保存进数据库中。
[0030]根据使用需要可通过对于科研文献内有价值的内容,本专利技术也进行了深入的研究,只提取有价值、实用的参数数据内容,使用技术准确提取图片、表格、科学研究参数数据等。帮助科学研究人员轻松用PDF科学文件建立起属于自己的参数数据资料库。
[0031]以上实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本专利技术各实施例技术方案的精神和范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种科技文献的参数数据提取方法,其特征在于,包括以下步骤:S1、上传科技文献PDF格式文件;S2、通过参数解析模块对科技文献PDF中的参数进行自动提取,获得参数数据,再通过与目标数据库字段匹配,同时显示参数数据所在的位置信息,并显示匹配结果;S3、将获得的参数数据建立新文档并与科技文献PDF原文对应部分同时展示;S4、上传者手动修改并完善新文档对应参数数据部分的录入,然后保存至数据库中。2.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块提取科技文献PDF中的数字数值,以及图片、表格中的参数数字数值。3.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块根据科技文献PDF原文中图片对象的追踪,获得图片坐标,并将图片保存为png格式;同时自动提取图片下方的文字说明,根据图片坐标和整页坐标计算图...

【专利技术属性】
技术研发人员:王卓李皓琛王者刘昌鑫王英海
申请(专利权)人:成都材智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1