本发明专利技术属于命名实体识别技术领域,一种面向PDF格式论文的生物医学实体识别方法,包括以下步骤:(1)接收PDF论文作为输入并确认其格式类型,(2)对输入文本的无效文本信息进行处理,(3)对输入文本内容进行规范化,(4)使用命名实体识别模型识别处理后文本中的医学实体,(5)对识别得到的实体在原文进行高亮处理,(6)整体流程封装并以Web应用形式展示。本发明专利技术方法打破了目前医学领域内还没有专门为其相关的论文直接进行实体识别处理并在PDF格式上进行高亮的先例,通过在文本中高亮出医学实体可以让医学研究者们快速的找到本篇论文中自己所关心的医学实体并进行进一步的阅读工作,具有十分有意义的使用价值。
【技术实现步骤摘要】
一种面向PDF格式论文的生物医学实体识别方法
本专利技术涉及一种面向PDF格式论文的生物医学实体识别方法,属于命名实体识别
技术介绍
近些年随着生物医学的飞速发展,同时与生物医学领域相关的文献也呈指数级别的增长。计算机生物医学领域即是由自然语言处理与生物医学衍生出来的交叉领域学科,主要通过使用自然语言处理的各项技术来处理医学领域的各种问题,为了医学领域的研究学者能够方便的从一篇医学领域的论文中辩别该论文是否包含所关心的医学实体的研究进展等相关问题,使用相关技术从不可编辑的PDF格式论文中识别实体并进行高亮具有十分有意义的使用价值。目前对于将PDF转为可编辑文本的处理方式缺少垂直领域的处理方式,因此如果在不进行进一步处理仅仅使用转化结果会使整体识别效果大打折扣。同时,就目前医学领域等垂直领域内,还没有专门为其相关的论文直接进行实体识别处理并在PDF格式上进行高亮的先例。同时,PDF的封装多元性以及不可编辑性,要想在保持原PDF格式上对识别出的实体进行在正确的高亮标记需要使用较为专业的垂直领域知识作为支撑,并根据领域实体特点做出相应的修正。
技术实现思路
为了克服现有技术中存在的不足,本专利技术目的是提供一种面向PDF格式论文的生物医学实体识别方法。该方法打破了目前医学领域内还没有专门为其相关的论文直接进行实体识别处理并在PDF格式上进行高亮的先例,能够为医学研究者们提供方便,通过在文本中高亮出医学实体可以让研究者们快速的找到本篇论文中自己所关心的医学实体并进行进一步的阅读工作,具有十分有意义的使用价值。为了实现上述专利技术目的,解决现有技术存在的问题,本专利技术采取的技术方案是:一种面向PDF格式论文的生物医学实体识别方法,包括以下步骤:步骤1、接收PDF论文作为输入并确认其格式类型,首先要针对不可编辑的PDF格式文本进行相关处理,防止TXT,XML可编辑格式文本作为输入,由于PDF格式文本具有良好的封装性,允许影印格式的文本信息保存在PDF格式文本中,由于目前现有OCR技术的局限性,识别影印文件中内容的准确度很低,造成大量以影印格式保存于PDF格式文本中;针对格式类型的确认,主要采用双重保险的方式来筛选文本类型,具体包括以下子步骤:(A)、由于最终封装成了一个系统并以网页形式展示,因此在网页输入端口设置了输入文本类型判断,从而筛选掉除PDF格式文本以外的其他类型文本;(B)、对子步骤(A)筛选后保留的PDF格式文本进行下一步的筛选,使用PyMuPDF库对论文中的图片数量及位置进行统计,并与图片所在完整的页面位置进行比对,从而判断论文是否属于扫描得到的影印文件,并进行筛选丢弃;步骤2、对输入文本的无效文本信息进行处理,由于PDF格式文本的不可编辑性以及良好的封装性,如何处理好每一页的有效文本信息成为了亟需解决的难题;尤其是PDF格式文本中的封面、页眉、页尾、图例、图表名及PDF格式文本中少量出现的特殊字多余信息的存在,导致若将PDF格式文本直接转换为可编辑类型文本后,会出现论文作者、论文编辑发表机构、论文评审会议字符乱码及冗余无效文本信息,为了方便后续步骤的进行,须首先对包含冗余无效文本信息的PDF格式文本进行清理,具体包括以下子步骤:(A)、去除位于文本每页固定位置的页眉、页尾无效文本信息,其主要工作是将页眉、页尾部分从整个文本中识别出并清洗掉,其中识别的方式主要采取:首先,将PDF格式文本转换为PNG的图片格式,再根据图片格式的文本确定页眉、页尾无效文本信息部分在相对应的图片中的位置,主要为坐标位置信息,从而使用坐标位置信息在原图片的基础上裁剪掉上述无效文本信息;其次,为避免由于使用主流的OCR图像识别技术,对于大规模文字识别的准确度低带来的识别图片的误差,主要采用识别文本信息量少的页眉、页尾无效文本信息部分,然后从全文中去除识别得到的无效文本信息的方式,来尽量的避免由于准确度低引起误差情况的发生;(B)、在进行步骤2子步骤(A)的无效文本信息清洗之后,位于PDF格式文本内位置并不固定的图例、表格、目录及引用无效文本信息同样需要彻底的筛选清洗;为此,采用以下的方法进行清除:对于图表的图例信息及图表名称,使用结合目前仅有的几种提取PDF格式文本表格,使用Pdfplumber、Camelot工具包以及识别PDF格式文本中图片的Tesseract-OCR工具的方式,来对图表标题、图例、内容无效文本信息进行提取并清洗;对于包含目录部分的PDF格式文本会结合使用Pdfminer方法将文本的目录提取出并作为框架信息,从而作为提取正文有效部分内容的框架标准;如果所处理的PDF格式文本不存在目录部分,则有选择地去除Introduction、Reference部分,这是由于此部分均为与正文叙述内容无关的无效文本信息;步骤3、对输入文本内容进行规范化,经过步骤2对输入文本的无效文本信息处理后进行统计总结,得到符合文本的通用性规则并进行文本正则化处理,更加有效的保证下一步骤的实体识别模型输入文本的规范性;为此,主要采用正则化手段来对有效文本进行清洗,方法主要有:对于步骤2得到的有效文本中的一词分属两行情况,为了避免由于出现换行符而识别不出此种实体的问题,会根据文本特点以及普遍论文格式习惯来选择性去掉多余的换行符的特殊符号;对于有效文本中出现的特殊字体、引用脚注、尾注的符号,由于其转化为可编辑文本后均会出现转义字符与普通字符组合的形式,因此选择清除普通字符后的转义字符亦或直接将之整体一起清除掉;对于图表的多余题注部分以及出现在有效文本中的图表名称部分,需要清洗掉带有Figure或Table作为开头的长字符串;对于文本中出现的公式字符量少的噪声信息,设置限制文本每行字符量的最小阈值予以清除;对于文本内重复出现的噪声信息,设置限制文本内某一段字符串的出现次数最大阈值予以清除;步骤4、使用命名实体识别模型识别处理后文本中的医学实体,对经过步骤2和步骤3处理之后的有效文本进行多种类医学实体的识别工作,主要使用BIO标签机制对文本进行序列标注;由于BIO标签会出现对多余空格或换行符错误处理的问题,因此需要将换行符多余符号进行清理得到可编辑文本;同时为了缩减单一文本进行实体识别时间的花销,将文本处理成以论文行为单位的文件并统一放在result文件夹下,并将它按照顺序输入模型中进行标注;其中采用的核心实体识别模型是目前先进的基于注意力机制的BiLSTM-CRF模型,使用双向长短期记忆网络主要考虑其能够充分结合上下文的信息来对每个词的上下文表示预测标签,同时加入CRF模型来进一步提升模型在转移预测方面的能力,这里I标签出现在B标签之后,而不会出现在O标签之后;最后,为了更好的处理句子级与文档级标签信息不一致的问题,加入注意力机制以及词法特征、句法特征来提升模型的性能;使用的机器学习的方法同时也结合了一些由维基百科、医学网站爬下来的词条及实体做成的词典,进行按照规则的实体识别;使用斯坦福的Corenlp工具进行有限类别的实体识别作为机器学习方法的补充;最后对于识别出的实体进行标准化,下载本文档来自技高网...
【技术保护点】
1.一种面向PDF格式论文的生物医学实体识别方法,其特征在于包括以下步骤:/n步骤1、接收PDF论文作为输入并确认其格式类型,首先要针对不可编辑的PDF格式文本进行相关处理,防止TXT,XML可编辑格式文本作为输入,由于PDF格式文本具有良好的封装性,允许影印格式的文本信息保存在PDF格式文本中,由于目前现有OCR技术的局限性,识别影印文件中内容的准确度很低,造成大量以影印格式保存于PDF格式文本中;针对格式类型的确认,主要采用双重保险的方式来筛选文本类型,具体包括以下子步骤:/n(A)、由于最终封装成了一个系统并以网页形式展示,因此在网页输入端口设置了输入文本类型判断,从而筛选掉除PDF格式文本以外的其他类型文本;/n(B)、对子步骤(A)筛选后保留的PDF格式文本进行下一步的筛选,使用PyMuPDF库对论文中的图片数量及位置进行统计,并与图片所在完整的页面位置进行比对,从而判断论文是否属于扫描得到的影印文件,并进行筛选丢弃;/n步骤2、对输入文本中的无效文本信息进行处理,由于PDF格式文本的不可编辑性以及良好的封装性,如何处理好每一页的有效文本信息成为了亟需解决的难题;尤其是PDF格式文本中的封面、页眉、页尾、图例、图表名及PDF格式文本中少量出现的特殊字多余信息的存在,导致若将PDF格式文本直接转换为可编辑类型文本后,会出现论文作者、论文编辑发表机构、论文评审会议字符乱码及冗余无效文本信息,为了方便后续步骤的进行,须首先对包含冗余无效文本信息的PDF格式文本进行清理,具体包括以下子步骤:/n(A)、去除位于文本每页固定位置的页眉、页尾无效文本信息,其主要工作是将页眉、页尾部分从整个文本中识别出并清洗掉,其中识别的方式主要采取:首先,将PDF格式文本转换为PNG的图片格式,再根据图片格式的文本确定页眉、页尾无效文本信息部分在相对应的图片中的位置,主要为坐标位置信息,从而使用坐标位置信息在原图片的基础上裁剪掉上述无效文本信息;其次,为避免由于使用主流的OCR图像识别技术,对于大规模文字识别的准确度低带来的识别图片的误差,主要采用识别文本信息量少的页眉、页尾无效文本信息部分,然后从全文中去除识别得到的无效文本信息的方式,来尽量的避免由于准确度低引起误差情况的发生;/n(B)、在进行步骤2子步骤(A)的无效文本信息清洗之后,位于PDF格式文本内位置并不固定的图例、表格、目录及引用无效文本信息同样需要彻底的筛选清洗;为此,采用以下的方法进行清除:对于图表的图例信息及图表名称,使用结合目前仅有的几种提取PDF格式文本表格,使用Pdfplumber、Camelot工具包以及识别PDF格式文本中图片的Tesseract-OCR工具的方式,来对图表标题、图例、内容无效文本信息进行提取并清洗;对于包含目录部分的PDF格式文本会结合使用Pdfminer方法将文本的目录提取出并作为框架信息,从而作为提取正文有效部分内容的框架标准;如果所处理的PDF格式文本不存在目录部分,则有选择地去除Introduction、Reference部分,这是由于此部分均为与正文叙述内容无关的无效文本信息;/n步骤3、对输入文本内容进行规范化,经过步骤2对输入文本的无效文本信息处理后进行统计总结,得到符合文本的通用性规则并进行文本正则化处理,更加有效的保证下一步骤的实体识别模型输入文本的规范性;为此,主要采用正则化手段来对有效文本进行清洗,方法主要有:对于步骤2得到的有效文本中的一词分属两行情况,为了避免由于出现换行符而识别不出此种实体的问题,会根据文本特点以及普遍论文格式习惯来选择性去掉多余的换行符的特殊符号;对于有效文本中出现的特殊字体、引用脚注、尾注的符号,由于其转化为可编辑文本后均会出现转义字符与普通字符组合的形式,因此选择清除普通字符后的转义字符亦或直接将之整体一起清除掉;对于图表的多余题注部分以及出现在有效文本中的图表名称部分,需要清洗掉带有Figure或Table作为开头的长字符串;对于文本中出现的公式字符量少的噪声信息,设置限制文本每行字符量的最小阈值予以清除;对于文本内重复出现的噪声信息,设置限制文本内某一段字符串的出现次数最大阈值予以清除;/n步骤4、使用命名实体识别模型识别处理后文本中的医学实体,对经过步骤2和步骤3处理之后的有效文本进行多种类医学实体的识别工作,主要使用BIO标签机制对文本进行序列标注;由于BIO标签会出现对多余空格或换行符错误处理的问题,因此需要将换行符多余符号进行清理得到可编辑文本;同时为了缩减单一文本进行实体识别时间的花销,将文本处理成以论文行为单位的文件并统一放在result文件夹下,并将它按照顺序输入模型中进行标注;/n其中采用的核心实体识别模型是目前先进的基于注意力机制的BiLSTM-CRF模型,使用双向长短期记忆...
【技术特征摘要】
1.一种面向PDF格式论文的生物医学实体识别方法,其特征在于包括以下步骤:
步骤1、接收PDF论文作为输入并确认其格式类型,首先要针对不可编辑的PDF格式文本进行相关处理,防止TXT,XML可编辑格式文本作为输入,由于PDF格式文本具有良好的封装性,允许影印格式的文本信息保存在PDF格式文本中,由于目前现有OCR技术的局限性,识别影印文件中内容的准确度很低,造成大量以影印格式保存于PDF格式文本中;针对格式类型的确认,主要采用双重保险的方式来筛选文本类型,具体包括以下子步骤:
(A)、由于最终封装成了一个系统并以网页形式展示,因此在网页输入端口设置了输入文本类型判断,从而筛选掉除PDF格式文本以外的其他类型文本;
(B)、对子步骤(A)筛选后保留的PDF格式文本进行下一步的筛选,使用PyMuPDF库对论文中的图片数量及位置进行统计,并与图片所在完整的页面位置进行比对,从而判断论文是否属于扫描得到的影印文件,并进行筛选丢弃;
步骤2、对输入文本中的无效文本信息进行处理,由于PDF格式文本的不可编辑性以及良好的封装性,如何处理好每一页的有效文本信息成为了亟需解决的难题;尤其是PDF格式文本中的封面、页眉、页尾、图例、图表名及PDF格式文本中少量出现的特殊字多余信息的存在,导致若将PDF格式文本直接转换为可编辑类型文本后,会出现论文作者、论文编辑发表机构、论文评审会议字符乱码及冗余无效文本信息,为了方便后续步骤的进行,须首先对包含冗余无效文本信息的PDF格式文本进行清理,具体包括以下子步骤:
(A)、去除位于文本每页固定位置的页眉、页尾无效文本信息,其主要工作是将页眉、页尾部分从整个文本中识别出并清洗掉,其中识别的方式主要采取:首先,将PDF格式文本转换为PNG的图片格式,再根据图片格式的文本确定页眉、页尾无效文本信息部分在相对应的图片中的位置,主要为坐标位置信息,从而使用坐标位置信息在原图片的基础上裁剪掉上述无效文本信息;其次,为避免由于使用主流的OCR图像识别技术,对于大规模文字识别的准确度低带来的识别图片的误差,主要采用识别文本信息量少的页眉、页尾无效文本信息部分,然后从全文中去除识别得到的无效文本信息的方式,来尽量的避免由于准确度低引起误差情况的发生;
(B)、在进行步骤2子步骤(A)的无效文本信息清洗之后,位于PDF格式文本内位置并不固定的图例、表格、目录及引用无效文本信息同样需要彻底的筛选清洗;为此,采用以下的方法进行清除:对于图表的图例信息及图表名称,使用结合目前仅有的几种提取PDF格式文本表格,使用Pdfplumber、Camelot工具包以及识别PDF格式文本中图片的Tesseract-OCR工具的方式,来对图表标题、图例、内容无效文本信息进行提取并清洗;对于包含目录部分的PDF格式文本会结合使用Pdfminer方法将文本的目录提取出并作为框架信息,从而作为提取正文有效部分内容的框架标准;如果所处理的PDF格式文本不存在目录部分,则有选择地去除Introduction、Reference部分,这是由于此部分均为与正文叙述内容无关的无效文本信息;
步骤3、对输入文本内容进行规范化,经过步骤2对输入文本的无效文本信息处理后进行统计总结,得到符合文本的通用性规则并进行文本正则化处理,更加有效的保证下一步骤的实体识别模型输入文本的规范性;为此,主要采用正则化手段来对有效文本进行清洗,方法主要有:对于步骤2得到的有效文本中的一词分属两行情况,为了避免由于出现换行符而识别不出此种实体的问题,会根据文本特点以及普遍论文格式习惯来选择性去掉多余的换行符的特殊符号;对于有效文本中出现的特殊字体、引用脚注、尾注的符号,由于其转化为可编辑文本后均会出现转义字符与普通字符组合的形式,因此选择清除普通字符后的转义字符亦或直接将之整体一起清除掉;对于图表的多余题注部分以及出现在有效文本中的图表名称部分,需要清洗掉带有Figure或Table作为开头的长字符串;对于文本中出现的公式字符量少的噪声信息,设置限制文本每行字符量的最小阈值予以清除;对于文本内重复出现的噪声信息,设置限制文本内某一段字符串的出现次数最大阈值予以清除;
步骤4、使用命名实体识别模型识别处理后文本中的医学实体,对经过步骤2和步骤3处理之后的有效文本进行多种类医学实体的识别工作,主要使用BIO标签机制对文本进行序列标注;由于BIO标签会出现对多余空格或换行符错误处理的问题,因此需要将换行符多余符号进行清理得到可编辑文本;同时为了缩减单一文本进行实体识别时间的花销,将文本处理成以论文行为单位的文件并统一放在result文件夹下,并将它按照顺序输入模型中进行标注;
其中采用的核心实体识别模型是目前先进的基于注意力机制的BiLSTM-CRF模型,使用双向长短期记忆网络主要考虑其能够充分结合上下文的信息来对每个词的上下文表示预测标签,同时加入CRF模型来进一步提升模型在转移预测方面的能力,这里I标签出现在B标签之后,而不会出现在O标签之后;最后,为了更好的处理句子级与文档级标签信息不一致的问题,加入注意力机制以及词法特征、句法特征来提升模型的性能;使用的机器学习的方法同时也结合了一些由维基百科、医学网站爬下来的词条及实体做成的词典,进行按照规则的实体识别;使用斯坦福的Corenlp工具进行有限类别的实体识别作为机器学习方法的补充;最后对于识别出的实体进行标准化,下载得到标准化...
【专利技术属性】
技术研发人员:杨志豪,韩钦宇,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。