本发明专利技术公开了一种医学文本的实体关系抽取方法,该方法包括以下步骤:接收待实体关系抽取的医学文本;将医学文本转化为bert格式数据;对bert格式数据进行数值索引转化,得到文本数值索引;利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。应用本发明专利技术所提供的医学文本的实体关系抽取方法,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性。本发明专利技术还公开了一种医学文本的实体关系抽取装置、设备及存储介质,具有相应技术效果。具有相应技术效果。具有相应技术效果。
【技术实现步骤摘要】
医学文本的实体关系抽取方法、装置、设备及存储介质
[0001]本专利技术涉及自然语言处理
,特别是涉及一种医学文本的实体关系抽取方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]实体关系三元组抽取是指从一个句子中抽取出关系三元组,主要目的是从文本中识别实体并抽取实体之间的语义关系。关系抽取解决了对应目标头尾实体间的关系分类问题,并且也是构建知识图谱重要步骤之一,同时也能为自动问答、机器翻译和搜索引擎提供技术支撑。
[0003]随着,近年来深度学习在关系抽取广泛应用,关系抽取在医学领域进一步得到广泛的关注和深入的研究。由于实体和关系定义的专业性,相比起其他领域,传统的医学知识库的构建需要大量的人力、物力以及专家知识等,因此利用现有大量的非结构化文本,自动高效的抽取相应的实体三元组关系就显得十分重要。此外,由于医学文本内容的固有特征,医学领域中的关系抽取也更复杂,医学文本中大量存在的关系重叠问题给实体关系的抽取带来了极大的干扰,易导致实体关系抽取不全面,抽取结果准确性低。
[0004]综上所述,如何有效地解决现有的医学文本的实体关系抽取方法,关系重叠问题易导致实体关系抽取不全面,抽取结果准确性低等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
[0005]本专利技术的目的是提供一种医学文本的实体关系抽取方法,该方法避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性;本专利技术的另一目的是提供一种医学文本的实体关系抽取装置、设备及计算机可读存储介质。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种医学文本的实体关系抽取方法,包括:
[0008]接收待实体关系抽取的医学文本;
[0009]将所述医学文本转化为bert格式数据;
[0010]对所述bert格式数据进行数值索引转化,得到文本数值索引;
[0011]利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
[0012]在本专利技术的一种具体实施方式中,利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果,包括:
[0013]通过所述主语感知关系提取模型的编码层对所述文本数值索引进行上下文动态编码,得到各序列词向量;
[0014]通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量,并将所述主语序列词向量确定为头实体;
[0015]通过所述主语感知关系提取模型的预测层对各所述序列词向量进行解码操作,得到除所述主语序列词向量之外各所述序列词向量分别对应的二分类结果;
[0016]判断各所述二分类结果中是否存在正类;
[0017]若是,则将所述正类对应的序列词向量确定为尾实体;
[0018]将所述头实体和所述尾实体确定为所述实体关系抽取结果。
[0019]在本专利技术的一种具体实施方式中,在通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量之后,将所述主语序列词向量确定为头实体之前,还包括:
[0020]通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化。
[0021]在本专利技术的一种具体实施方式中,通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化,包括:
[0022]通过所述共享向量层中的条件正则化子层对所述主语序列词向量进行语义感知,得到目标语义;
[0023]通过所述共享向量层中的特征子层基于预设特征库对所述目标语义进行语义特征强化。
[0024]在本专利技术的一种具体实施方式中,在接收待实体关系抽取的医学文本之后,将所述医学文本转化为bert格式数据之前,还包括:
[0025]对所述医学文本进行中文文本语料处理。
[0026]在本专利技术的一种具体实施方式中,在对所述医学文本进行中文文本语料处理之后,将所述医学文本转化为bert格式数据之前,还包括:
[0027]获取语料处理后得到的医学文本的文本长度;
[0028]判断所述文本长度是否大于预设长度值;
[0029]若是,则对语料处理后得到的医学文本进行长文本分割。
[0030]在本专利技术的一种具体实施方式中,利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,包括:
[0031]利用预训练得到的损失函数最小化的主语感知关系提取模型对所述文本数值索引进行上下文动态编码。
[0032]一种医学文本的实体关系抽取装置,包括:
[0033]文本接收模块,用于接收待实体关系抽取的医学文本;
[0034]格式转化模块,用于将所述医学文本转化为bert格式数据;
[0035]索引获得模块,用于对所述bert格式数据进行数值索引转化,得到文本数值索引;
[0036]抽取结果获得模块,用于利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
[0037]一种医学文本的实体关系抽取设备,包括:
[0038]存储器,用于存储计算机程序;
[0039]处理器,用于执行所述计算机程序时实现如前所述医学文本的实体关系抽取方法
的步骤。
[0040]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述医学文本的实体关系抽取方法的步骤。
[0041]本专利技术所提供的医学文本的实体关系抽取方法,接收待实体关系抽取的医学文本;将医学文本转化为bert格式数据;对bert格式数据进行数值索引转化,得到文本数值索引;利用预训练得到的主语感知关系提取模型对文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。
[0042]由上述技术方案可知,通过将接收到待实体关系抽取的医学文本转化为bert格式数据,对bert格式数据进行数值索引转化,得到文本数值索引。预先训练主语感知关系提取模型,利用主语感知关系提取模型对转化得到的文本数值索引进行上下文动态编码,对编码结果进行实体关系抽取,得到实体关系抽取结果。通过进行文本数值索引进行上下文动态编码,医学文本中各文本词语均存在各自对应的词向量,保证了医学文本中各词向量的有效性,避免了实体关系的重合,保证了对编码结果进行实体关系抽取的全面性,较大地提升了实体关系抽取结果的准确性。
[0043]相应的,本专利技术还提供了与上述医学文本的实体关系抽取方法相对应的医学文本的实体关系抽取装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
[0044]为了更清楚地说本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种医学文本的实体关系抽取方法,其特征在于,包括:接收待实体关系抽取的医学文本;将所述医学文本转化为bert格式数据;对所述bert格式数据进行数值索引转化,得到文本数值索引;利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果。2.根据权利要求1所述的医学文本的实体关系抽取方法,其特征在于,利用预训练得到的主语感知关系提取模型对所述文本数值索引进行上下文动态编码,并对编码结果进行实体关系抽取,得到实体关系抽取结果,包括:通过所述主语感知关系提取模型的编码层对所述文本数值索引进行上下文动态编码,得到各序列词向量;通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量,并将所述主语序列词向量确定为头实体;通过所述主语感知关系提取模型的预测层对各所述序列词向量进行解码操作,得到除所述主语序列词向量之外各所述序列词向量分别对应的二分类结果;判断各所述二分类结果中是否存在正类;若是,则将所述正类对应的序列词向量确定为尾实体;将所述头实体和所述尾实体确定为所述实体关系抽取结果。3.根据权利要求2所述的医学文本的实体关系抽取方法,其特征在于,在通过所述主语感知关系提取模型的主语感知层从各所述序列词向量中识别得到主语序列词向量之后,将所述主语序列词向量确定为头实体之前,还包括:通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化。4.根据权利要求3所述的医学文本的实体关系抽取方法,其特征在于,通过所述主语感知关系提取模型的共享向量层对所述主语序列词向量进行语义感知及语义特征强化,包括:通过所述共享向量层中的条件正则化子层对所述主语序列词向量进行语义感知,得到目标语义;通过所述共享向量层...
【专利技术属性】
技术研发人员:闾磊,张艳春,黄甫毅,钟应佳,万虹,
申请(专利权)人:四川医枢科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。