本发明专利技术提供一种专利中命名实体的提取方法、装置及电子设备,其中,方法包括:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。通过实施本方案,对专利文本进行预处理,得到模型能够识别的文本信息,然后利用预先训练好的命名实体提取模型在专利文件中提取出命名实体,由于预先训练好的命名实体提取模型是根据专利文件进行训练的,其可以有效掌握专利文献的文字表述方式,从而可以有效实现专利文献的命名实体提取,提高专利文件命名实体的提取准确性。文件命名实体的提取准确性。文件命名实体的提取准确性。
【技术实现步骤摘要】
一种专利中命名实体的提取方法、装置及电子设备
[0001]本专利技术涉及自然语言处理
,具体涉及一种专利中命名实体的提取方法、装置及电子设备。
技术介绍
[0002]专利数据是互联网中的一种重要的知识产权数据,研究表明,专利虽然只占文献总量的10%,却能提供全世界90%~95%的新技术信息。而在药物研发领域中尤为明显,大量的潜在成药的小分子数据分布在文献、专利等文档中。其中,化学专利是理解化合物用途、特性和新颖性的重要起点。通常情况下,新化合物最初是在专利文件中公开的,化学文献中提及这些化学物质可能需要1
‑
3年的时间,这表明专利是一种有价值的但未充分利用的资源。随着每年新化学专利申请数量的急剧增加,如何有效的提取并利用这些数据,是企业界、学术界首要考虑的问题,而开发能够从这些专利中提取信息的工具是首要任务。
[0003]相关技术中,一般采用BioBERT在生物医学领域的论文中实现命名实体提取。在构建BioBERT时,使用BERT的权重初始化BioBERT,该BERT利用通用领域语料库(英语Wikipedia和BooksCorpus)进行预训练。然后,对BioBERT进行生物医学领域语料库(PubMed摘要和PMC全文文章)的训练。专利技术人发现,论文摘要语料以及句子表述与专利的文字表述存在一定的差异,若采用上述方法对专利文件进行命名实体提取,其提取效果较差。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供了一种专利中命名实体的提取方法、装置及电子设备,以解决现有技术中对专利文件进行命名实体提取,其提取效果较差的缺陷。
[0005]根据第一方面,本专利技术实施例提供一种专利中命名实体的提取方法,包括如下步骤:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。
[0006]可选地,所述预先训练好的命名实体提取模型包第一网络模型以及第二网络模型,所述第一网络模型为基于注意力机制建立的网络模型,所述第一网络模型的输出为文本特征向量,所述文本特征向量作为第二网络模型的输入。
[0007]可选地,所述命名实体提取模型的训练过程包括:获取第一专利文本样本数据;根据所述第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,所述第一预训练网络模型为未经过目标领域专利文件训练的所述第一网络模型;获取目标领域的第二专利文本样本数据;根据标注工具对所述第二专利文本样本数据进行实体标注,得到标注语料,所述标注语料包括标注内容以及标注标签;对所述标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;将每个句子对应词语的令牌序列输入至所述第一预训练网络模型,得到文本特征向量;将所述文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,所述第二预训练网
络模型为未完成训练的第二网络模型。
[0008]可选地,所述目标领域为生物医药领域,所述实体标注包括分子名称、靶点、疾病、分子式、化合物注册号、试剂简写及CAS号中的至少一种或多种。
[0009]可选地,所述对所述专利文本进行数据预处理,得到预处理后的文本信息,包括:判断所述专利文本的文本类型,根据所述文本类型选取对应的预处理方式,包括:当所述文本类型为不可编辑文本时,将所述专利文件转换为可编辑文件。
[0010]可选地,还包括:当所述文本类型为可编辑文本时,判断所述可编辑文本的文本格式;当所述文本格式为xml格式或rtf格式时,将所述格式转换为txt格式。
[0011]可选地,所述对所述标注语料进行分句及分词处理包括:通过分词工具和分句工具对所述标注语料进行分句及分词处理,所述分句工具为SpaCy,所述分词工具为Tokenizer。
[0012]根据第二方面,本实施例提供一种专利中命名实体的提取装置,包括:专利文本获取模块,用于获取专利文本;预处理模块,用于对所述专利文本进行数据预处理,得到预处理后的文本信息;命名提取模块,用于将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。
[0013]根据第三方面,本实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的专利中命名实体的提取方法的步骤。
[0014]根据第四方面,本实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的专利中命名实体的提取方法的步骤。
[0015]本专利技术技术方案,具有如下优点:
[0016]1.本实施例提供的专利中命名实体的提取方法,通过对专利文本进行预处理,得到模型能够识别的文本信息,然后利用预先训练好的命名实体提取模型在专利文件中提取出命名实体,由于预先训练好的命名实体提取模型是根据专利文件进行训练的,其可以有效掌握专利文献的文字表述方式,从而可以有效实现专利文献的命名实体提取,提高专利文件命名实体的提取准确性。
[0017]2.本实施例提供的专利中命名实体的提取方法,根据第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练模型,然后通过对目标领域(生物医药领域)的第二专利文本样本数据进行实体标注,将标注后的数据作为样本,再次训练第一预训练模型以及第二预训练网络,得到由第一网络模型和第二网络模型共同构建的命名实体提取模型,通过该模型对专利文本进行命名实体提取,能够从而进一步提高目标领域(生物医药领域)的专利文件的命名实体提取准确率。
附图说明
[0018]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术实施例中专利中命名实体的提取方法的一个具体示例的流程图;
[0020]图2为本专利技术实施例中专利中命名实体的提取方法的一个具体示例图;
[0021]图3为本专利技术实施例中专利中命名实体的提取方法的一个具体示例图;
[0022]图4为本专利技术实施例中专利中命名实体的提取方法的一个具体示例图;
[0023]图5为本专利技术实施例中专利中命名实体的提取方法的一个具体示例图;
[0024]图6为本专利技术实施例中专利中命名实体的提取装置的一个具体示例原理框图;
[0025]图7为本专利技术实施例中电子设备的一个具体示例的原理框图。
具体实施方式
[0026]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种专利中命名实体的提取方法,其特征在于,包括如下步骤:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。2.根据权利要求1所述的方法,其特征在于,所述预先训练好的命名实体提取模型包第一网络模型以及第二网络模型,所述第一网络模型为基于注意力机制建立的网络模型,所述第一网络模型的输出为文本特征向量,所述文本特征向量作为第二网络模型的输入。3.根据权利要求2所述的方法,其特征在于,所述命名实体提取模型的训练过程包括:获取第一专利文本样本数据;根据所述第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,所述第一预训练网络模型为未经过目标领域专利文件训练的所述第一网络模型;获取目标领域的第二专利文本样本数据;根据标注工具对所述第二专利文本样本数据进行实体标注,得到标注语料,所述标注语料包括标注内容以及标注标签;对所述标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;将每个句子对应词语的令牌序列输入至所述第一预训练网络模型,得到文本特征向量;将所述文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,所述第二预训练网络模型为未完成训练的第二网络模型。4.根据权利要求3所述的方法,其特征在于,所述目标领域为生物医药领域,所述实体标注包括分子名称、靶点、疾病、分子式、化合物注册号、试剂简写及CAS号中的至少一种或...
【专利技术属性】
技术研发人员:白芳,
申请(专利权)人:北京望石智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。