一种中文医学药品说明书实体关系联合抽取方法及系统技术方案

技术编号：41379719 阅读：3 留言：0更新日期：2024-05-20 10:22

一种中文医学药品说明书实体关系联合抽取方法，针对中文医疗文本，以关系抽取为主任务以减少关系冗余，通过用共享参数的联合抽取方式以实现浅层的信息交互，重构基于关系的实体抽取任务，将其扩展为更加细粒度的子任务：基于关系的主语识别、基于关系的宾语识别和基于关系的主宾对齐，同时将多任务交互的特征分区与过滤作为细粒度子任务的编码器以实现深层的信息交互；对于主宾对齐中数据不平衡引起的矩阵稀疏的问题，引入Dice损失来解决。以及提供一种中文医学药品说明书实体关系联合抽取系统。本发明专利技术更加细粒度的子任务设计与MPF特征提取编码器使得中文医疗文本中实体识别和关系抽取的性能得到稳定的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，特别是一种中文医学药品说明书实体关系联合抽取方法及系统。

技术介绍

1、构建医疗领域药品说明书的知识图谱，首先要针对药品说明书扫描件进行ocr识别，提取图片中的规定段落形成结构化的数据(药品说明书字段)，随后从指定段落中的非结构化数据得到实体、关系、属性等有用的信息，即信息抽取。实体关系抽取任务是找出所有的实体关系三元组(主语，关系，宾语)，其通常以子任务的方式进行建模(如实体抽取和关系抽取)，并根据子任务完成的先后顺序，可以分为以下三种：以实体抽取为主任务，即先抽取实体，再将实体结果进行两两组合来识别关系；以关系抽取为主任务，即先抽取关系，再在当前关系下识别主语与宾语；联合解码，即将两个子任务建模到同一个标签空间中，通过统一的解码方式一步式得出三元组。前两种可以通过pipeline抽取和共享参数的joint抽取实现，而第三种可以通过联合解码的joint抽取实现。pipeline抽取会根据子任务训练多个模型，子任务之间完全没有互动，而联合解码的joint抽取依赖于复杂的解码算法构建，实现起来较为复杂，所以基于共享参数的joint抽取得到了广泛关注。

2、2021年，prgc(potential relation and global correspondence based jointrelational triple extraction)方法以关系抽取为主任务，使用共享参数的joint抽取方式建模，重构基于关系的实体抽取任务，通过一个全局矩阵来对齐主宾，其关系判断实现的剪枝以及仅仅

技术实现思路

1、为了克服现有技术的不足，本专利技术提供一种中文医学实体关系联合抽取方法及系统，针对中文医疗文本，以关系抽取为主任务以减少关系冗余，通过用共享参数的joint抽取方式以实现浅层的信息交互，重构基于关系的实体抽取任务，将其扩展为更加细粒度的子任务：基于关系的主语识别、基于关系的宾语识别和基于关系的主宾对齐，同时扩展pfn为多任务交互的特征分区与过滤(multi-task partitioning and filtering，mpf)使其能够应用于多个子任务，将mpf作为细粒度子任务的编码器以实现深层的信息交互；此外对于主宾对齐中数据不平衡引起的矩阵稀疏的问题，引入dice损失来解决；更加细粒度的子任务设计与mpf特征提取编码器使得中文医疗文本中实体识别和关系抽取的性能得到稳定的提升。

2、本专利技术解决其技术问题所采用的技术方案是：

3、一种中文医学实体关系联合抽取方法，包括如下步骤：

4、步骤一：将药品说明书通过ocr识别提取到的结构化段落，从指定段落中得到待抽取实体关系非结构化的中文医疗文本，以及给定的本体约束集合，所述本体约束集合包括关系名称、头实体类型和尾实体类型，根据预设比例将已标注的中文医疗文本数据划分为训练集d1和验证集d2，所述中文医疗文本数据包括当前样本所包含的主语、宾语以及关系；

5、步骤二：对训练集d1进行预处理，复制每个训练样本的医疗文本句子，复制数量为其所存在的关系类别数，得到每个样本的标签数据，包括当前关系、全部关系、当前关系下的主语、当前关系下的宾语以及当前关系下的主宾对齐矩阵；

6、步骤三：用d1训练实体关系联合抽取模型，以关系抽取为主任务，将基于关系的实体抽取划分为更为细粒度的三个子任务：基于关系的主语识别，基于关系的宾语识别和基于关系的主宾对齐，应用多任务交互的特征分区与过滤mpf编码器完成三个子任务的特征提取，通过关系检测判断出句子中可能存在的关系，并在当前关系下完成主语和宾语的抽取，使用对齐矩阵完成对齐，使用联合优化损失函数训练实体关系抽取模型；

7、步骤四：将没有标注的中文医疗文本输入训练好的实体关系联合抽取模型，得到文本句子的初始嵌入表示后，通过关系检测识别出潜在的关系，复制文本句子样本，复制数量为其潜在的关系类别数，通过mpf进行子任务的特征提取，完成特定关系表示下的主宾识别及对齐，输出实体关系主谓宾三元组。

8、进一步，所述步骤三的过程如下：

9、3.1对d1中的各个医疗文本分别使用预训练的语言模型plm，例如中文的bert模型，得到各文本句子s的嵌入向量x：

10、x＝plm(s)＝{x1,x2,...,xn|xi∈r1×d}，

11、其中n是x所包含的token数量，d是嵌入向量维度，xi表示第i个token向量；

12、3.2关系检测及表示，将嵌入向量x经过平均池化后的隐状态向量havg输入全连接层，并通过阈值λ1判断某种关系是否存在，利用关系的二元指示器yr(s)∈{0,1}以及可训练关系嵌入矩阵得到存在关系的嵌入表示其中nr为总的关系数量，表示yr(s)中值为1的数量：

13、havg＝avgpool(x)

14、prel＝σ(wrhavg+br)

15、yr(s)＝sgn(prel-λ1)

16、其中avgpool()表示平均池化，wr和br分别为可训练参数和相应的偏差，σ为sigmoid激活函数，sgn为符号函数，在关系预测概率prel的元素值超过阈值λ1时yr(s)中对应的元素值为1，视为关系存在，否则，yr(s)中对应的元素值为0，表示关系不存在；

17、3.3mpf特征提取，将嵌入向量x输入mpf编码器，通过多任务交互的特征分区与过滤，完成子任务的特征抽取，融合全局特征后形成独立于子任务的特征；

18、3.4子任务抽取，将当前样本的特定关系的嵌入表示与各子任务(a，b，c)的特有特征拼接后完成特定关系的主宾抽取，其中任务a和任务b采取“bio”标注用于识别当前关系的所有主语和宾语，“b”表示第i个token是实体的开头，“i”表示第i个token是在实体的中间位置，“o”表示第i个token不是实体，任务c采用二分类用于识别当前关系下主语和宾语是否存在关联：

19、

20、

21、

22、其中是当前关系的嵌入表示，和分别表示第i个token在当前关系rj下属于主语和宾语bio标记的预测概率，表示在关系rj下所有主语与宾语本文档来自技高网...

【技术保护点】

1.一种中文医学药品说明书实体关系联合抽取方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种中文医学药品说明书实体关系联合抽取方法，其特征在于，所述步骤三的过程如下：

3.如权利要求2所述的一种中文医学药品说明书实体关系联合抽取方法，其特征在于，所述步骤3.3的过程如下：

4.一种实现如权利要求1所述的中文医学药品说明书实体关系联合抽取的系统，其特征在于，所述系统包括：

【技术特征摘要】

1.一种中文医学药品说明书实体关系联合抽取方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种中文医学药品说明书实体关系联合抽取方法，其特征在于，所述步骤三的过程如下：

3....

【专利技术属性】
技术研发人员：徐新黎，卢齐林，杨旭华，马钢峰，龙海霞，管秋，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人