当前位置: 首页 > 专利查询>云南大学专利>正文

一种基于本地路径增强的中医药文档级关系抽取方法技术

技术编号:39646658 阅读:21 留言:0更新日期:2023-12-09 11:14
对中医药电子病历

【技术实现步骤摘要】
一种基于本地路径增强的中医药文档级关系抽取方法、系统、电子设备及介质


[0001]本专利技术公开了一种基于本地路径增强的中医药文档级关系抽取方法

系统

电子设备及介质,涉及使用深度神经网络对中医药文档级数据进行关系抽取,属于信息抽取


技术背景
[0002]在中医药领域,从电子病历

处方

临床记录及典籍文献等中医药文本数据中抽取实体关系,可为中医药文本数据的分析和理解奠定基础,可有效促进药物研发和临床诊疗

推动中医药学研究发展,具有重要的现实意义

目前,中医药实体关系抽取通常需要依赖医学领域的专业人员来进行标注,但这种人工标注方式无法满足数据日益增长背景下知识抽取的迫切需求

因此,需要建立人工智能模型,辅助中医药研究和临床工作者快速抽取电子病历

处方

临床记录及典籍文献等中医药文本中的实体关系

此外,通过与已知的实体关系进行对比和验证,还有助于发现新的实体关系,从而促进中医药领域的研究和创新

[0003]实体关系抽取一般是指从半结构或无结构的文本数据中抽取出实体及实体间的关系,公知的方法在预训练语言模型的基础上加入先验信息,能有效抽取单句中的实体关系

例如,景慎旗等
(
基于医学领域知识和远程监督的医学实体关系抽取研究
[J],数据分析与知识发现,
2022)
利用基于标准
BERT
模型扩展得到的
MedicalBERT
,对远程监督获取的有标注

低噪音数据进行编码,并将外部知识库中实体的文本描述作为先验信息,从而提升关系抽取模型的性能

王海涛等
(<
基于跨度和注意力机制的中文实体与关系抽取方法及装置,专利
CN202210816017.9>

2022)
,将自然语言句子分词后构成的跨度集映射为词向量集,并基于预训练模型生成特征表示集合

通过注意力机制完成特征融合,然后使用分类器计算出跨度的实体类型,并在跨度前后分别加上计算出的实体类型以形成带边界信息和实体类型的跨度,以此为先验信息实现关系抽取

然而,上述方法仅适用在单句内的实体关系抽取,并不能在多个句子之间实现文档级关系的推理,难以在实际应用中获得较好的效果

[0004]文档级关系抽取是在实体关系抽取的基础上根据上下文信息进行关系推理,从而达到对长文本进行关系抽取的效果

目前公知的基于路径推理的文档级关系抽取方法,实现了从长文档中获取实体对之间的关系信息

例如,赵铁军等
(<
一种基于图神经网络和推理路径的文档级关系抽取方法,专利
CN202210617790.2>

2022)
通过将句子

实体及其提及构成异构图,并使用注意力机制融合实体对之间多条路径的特征,以表示实体对在图中的全局特征

杭婷婷等
(<
一种基于选择性注意力和路径推理的文档级关系抽取方法,专利
CN202211134776.3>

2022)
利用双向长短期记忆网络
(Bi

directional Long Short

Term Memory

BiLSTM)
和多层感知机获取指称项对的表示和相应的句子对表示,采用多层循环网络分别构建句内关系图和句间关系图,并基于由句内子图和句间子图构成的文档图,利用选择性注意力筛选出与实体对相关的句子并聚合成文档子图,以构建目标实体关系的抽取范围和关系的推理路径

中医药文本数据中,实体对之间的关联通常隐含在上句

本句和下
句的局部邻域中,需考虑局部信息对中医药实体关系抽取的重要性

然而,通用模型基于全局信息进行关系推理,容易引入过多噪音,从而影响关系抽取结果的质量

[0005]为克服上述公知方法的不足,本专利技术提出一种基于启发式规则的中医药文档级实体关系抽取方法,使用中医药实体对齐方法消除常见的多词一义现象

提高实体识别的质量

给出启发式规则以寻找实体对之间的支撑信息并构造推理路径,增加抽取结果的准确性

进一步,通过引入中医药方剂知识对本地推理路径进行增强,提升路径的特征表达能力

最后在增强后的路径上进行关系推理,提高关系预测的准确性


技术实现思路

[0006]一

本专利技术的目的
[0007]针对电子病历

处方

临床记录及典籍文献等中医药文档数据语义复杂

多文本一致性

关系抽取困难等问题,本专利技术凝练了“现象表达”、“被治疗”、
和“治法是”这3类中医药核心实体关系范式,利用启发式规则提取推理路径,结合实体对齐方法并引入中医药方剂信息对路径进行增强,有效提升了在中医药跨文本数据上关系抽取的准确率,为中医药领域研究和应用提供技术支撑

[0008]二

本专利技术的步骤
[0009]本专利技术的执行过程分为以下3个步骤:
[0010](1)
中医药数据集构造:收集中医药文档数据,对齐实体提及,并标注出不同医学实体及其位置和关系佐证句子

[0011](2)
中医药实体路径增强:对使用步骤
(1)
标注后的数据集,通过启发式规则进行路径构造,并引入中医药方剂知识进行路径增强

[0012](3)
中医药关系抽取:将使用步骤
(2)
增强后的路径输入
BioBERT
模型进行训练,计算损失函数并迭代更新模型参数的权重,并使用训练好的模型实现中医药关系抽取

[0013]具体步骤如下:
[0014]1:中医药数据集构造
[0015]1.1
:中医药实体对齐
[0016]处方

药剂和病症等中医药概念,往往会出现多词一义的情况,即一个中医药实体会有多个同义或近义的表达

针对这种情况,本专利技术在本地构建中医药公共实体库
M

[m
′1,
m
′2,
..

m

z...

【技术保护点】

【技术特征摘要】
1.
一种基于本地路径增强的中医药文档级关系抽取方法

系统

电子设备及介质,其特征在于,包括以下步骤:
S1
:中医药数据集构造,收集中医药文档数据,对齐实体提及,并标注出不同医学实体及其位置和关系佐证句子
。S2
:中医药实体路径增强,将步骤
S1
标注后的数据集,通过启发式规则进行路径构造,并引入中医药方剂知识进行路径增强
。S3
:中医药关系抽取,将步骤
S2
增强后的路径输入
BioBERT
模型进行训练,计算损失函数并迭代更新模型参数的权重,并使用训练好的模型实现中医药关系抽取
。2.
根据权利要求1所述的一种基于本地路径增强的中医药文档级关系抽取方法

系统

电子设备及介质,其特征在于,所述步骤
S1
进一步包括以下具体步骤:
S1.1
:中医药实体对齐本发明在本地构建中医药公共实体库其中
z(z

0)

M
中实体总数,在实体库中添加实体的别名表示,作为偏置项增强特征表示
。M
中第
i
个实体表示为其中表示实体名,表示类型名,为大小为
Φ
的别名集合

中医药文档数据集记为其中
n(n

0)
为中医药文档个数,为中医药文档个数,为中医药文档数据中的一条文本数据

对进行分词,得到个词的集合,取中任意词若若则遍历得到的每一个别名通过使用开源的生物医学预训练模型
BioBERT
,得到的特征向量最后得到如下的别名偏置项特征最后得到如下的别名偏置项特征若则为空,对补充辅助特征后,本发明使用余弦相似度
(Cosine Similarity)
计算某一名词与其他个名词之间的相似度,即判断某中医药名词
h
k
在中是否存在其他同义名词,通过
BioBERT
模型得到
h
k
的特征向量及其他任意词的特征向量按如下公式计算余弦相似度:其中,“·”表示向量点积,“||
·
||”表示向量的欧几里得模,和分别表示中医药实体的偏置项,中医药名词没有偏置项时对应的或为
0。
对中任意实体和给定相似度阈值
Ψ
(
Ψ

0)
,若则将实体
指代为实体进而对整个文本数据中所有提及进行实体对齐:其中,表示实体最终指代中医药公共实体库中第个中医药实体,“g()”表示实体对齐方法

将所有实体及其提及对齐后,更新文本数据得到对齐后的数据集得到对齐后的数据集
S1.2
:中医药数据标注本发明凝练了“现象表达”、“被治疗”和“治法是”这3类中医药核心实体关系范式,针对关系范式按照通用的文档级数据集
DocRED
格式标注,在对齐后的数据中标注出中医药实体及其位置和关系佐证句子,得到对应的标注数据
L

L

[l1,
l2,
...

l
n
]
,并将标注好的数据集
L
按照一定比例划分为训练数据集
D
train
和测试数据集
D
val
,即
L

D
train
∪D
eev
,其中
D
train
用于训练模型,
D
dev
用于评估模型识别精度
。3.
根据权利要求1所述的一种基于本地路径增强的中医药文档级关系抽取方法

系统

电子设备及介质,其特征在于,所述步骤
S2
进一步包括以下具体步骤:
S2.1
:中医药实体路径构造本发明使用以下4条启发式规则在标注数据集
L
中获取中医药实体间存在关联性的句子并连接起来构造路径,路径格式为子并连接起来构造路径,路径格式为其中
η
(
η

0)
表示连接头实体
e
head
和尾实体
e
tail
的句子数量
。S2.1.1
:连续路径构造对于训练数据集
D
train

[d1,
d2,
...

d
k
](k

0)
,将中的中医药实体构造成实体集合由于中医药文档中实体关系存在因果性,通常出现在相邻的文本中,因此设置最小邻域阈值
γ
(
γ

0)
,选择中任意两个不同中医药实体头
e
ω
和尾实体
e
w
,要求
(
表示
e
ω
在中的句子索引,表示
e
w
在中的句子索引
)。
若存在符合要求的中医药实体
e
ω

e
w
,则可基于二者所在句子构建连续路径,当时,为
e
ω

e
w
同时出现在一个单句的情况

遍历
D
train
进行连续路径构造,得到连续路径集
S2.1.2
:关键路径构造在中医药文档数据中,带有“诊断”、“证型”和“中医治法”等中医药规约关键词的句子相比于其他句子,是佐证中医药关系的关键句,对中医药实体关系抽取任务具有更高的优先级

本发明设计中医药规约关键词库本发明设计中医药规约关键词库对于训练数据集
D
train

[d1,
d2,
...

d
k
]
,若中任意一个关键词
k
o
(0

o

r)
与任意两个不同类型中医药头实体
e
c
和尾实体
e
v
出现在
d
s
(0

s

k)
中同一个最小邻域,则可基于
k
i
、e
c

e
v
所在句子构造一条路径

考虑到该句已包含于连续路径中,因此设定一个标记符
[

key

]
来标注这条路径为关键路径,表示为遍历
D
train
进行关键路径构造,得到关
键路径集
S2.1.3
:多跳路径构造对于中医药文档中相距较远的中医药头实体
e
y
和尾实体
e
u
,即,即若存在一系列桥接提及实体使得在句子集合中形成个具有桥接关系的句间实体对则可以基于生成的实体对,构造一条将中医药头实体
e
y
和医药尾实体
e
u
连接起来的多跳路径

考虑到中医药文档中实体间存在相互关联的特点,即出现中医药关系的实体不需要太多的实体进行桥接,故设置阈值
α
(
α

0)
,即最多仅需要
α
个桥接实体

遍历
D
train
进行多跳路径构造,得到多跳路径集
S2.1.4
:默认路径构造当以上3种规则都不适用时,考虑使用最相关的句子进行中医药关系辅证的粗略估计,对于
d
b
(0

b

k)
中没有路径关系的中医药头实体
e
h
和尾实体
e
t
,收集所有包含
e
h

e
t
的句子作为默认路径

具体而言,假设和分别表示包含
e
h

e
t
的句子集合,若
e
h

e
t
之间不存在路径,则将进行连接构造一条默认路径

遍历
D
train
进行默认路径构造,得到默认路径集从而得到完整的路径集集并使用
BioBERT
将映射为特征集合,表示为映射为特征集合,表示为
τ
(
τ

0)
为特征集合中路径特征的数量
。S2.2
:中医药特征提取本发明综合利用中医药方剂知识,基于
...

【专利技术属性】
技术研发人员:黄泽昊石云成刘琼王笳辉谢文飞段亮岳昆
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1