【技术实现步骤摘要】
一种基于本地路径增强的中医药文档级关系抽取方法、系统、电子设备及介质
[0001]本专利技术公开了一种基于本地路径增强的中医药文档级关系抽取方法
、
系统
、
电子设备及介质,涉及使用深度神经网络对中医药文档级数据进行关系抽取,属于信息抽取
。
技术背景
[0002]在中医药领域,从电子病历
、
处方
、
临床记录及典籍文献等中医药文本数据中抽取实体关系,可为中医药文本数据的分析和理解奠定基础,可有效促进药物研发和临床诊疗
、
推动中医药学研究发展,具有重要的现实意义
。
目前,中医药实体关系抽取通常需要依赖医学领域的专业人员来进行标注,但这种人工标注方式无法满足数据日益增长背景下知识抽取的迫切需求
。
因此,需要建立人工智能模型,辅助中医药研究和临床工作者快速抽取电子病历
、
处方
、
临床记录及典籍文献等中医药文本中的实体关系
。
此外,通过与已知的实体关系进行对比和验证,还有助于发现新的实体关系,从而促进中医药领域的研究和创新
。
[0003]实体关系抽取一般是指从半结构或无结构的文本数据中抽取出实体及实体间的关系,公知的方法在预训练语言模型的基础上加入先验信息,能有效抽取单句中的实体关系
。
例如,景慎旗等
(
基于医学领域知识和远程监督的医学实体关系抽取研究
[J],数据分析与知
【技术保护点】
【技术特征摘要】
1.
一种基于本地路径增强的中医药文档级关系抽取方法
、
系统
、
电子设备及介质,其特征在于,包括以下步骤:
S1
:中医药数据集构造,收集中医药文档数据,对齐实体提及,并标注出不同医学实体及其位置和关系佐证句子
。S2
:中医药实体路径增强,将步骤
S1
标注后的数据集,通过启发式规则进行路径构造,并引入中医药方剂知识进行路径增强
。S3
:中医药关系抽取,将步骤
S2
增强后的路径输入
BioBERT
模型进行训练,计算损失函数并迭代更新模型参数的权重,并使用训练好的模型实现中医药关系抽取
。2.
根据权利要求1所述的一种基于本地路径增强的中医药文档级关系抽取方法
、
系统
、
电子设备及介质,其特征在于,所述步骤
S1
进一步包括以下具体步骤:
S1.1
:中医药实体对齐本发明在本地构建中医药公共实体库其中
z(z
>
0)
为
M
中实体总数,在实体库中添加实体的别名表示,作为偏置项增强特征表示
。M
中第
i
个实体表示为其中表示实体名,表示类型名,为大小为
Φ
的别名集合
。
中医药文档数据集记为其中
n(n
>
0)
为中医药文档个数,为中医药文档个数,为中医药文档数据中的一条文本数据
。
对进行分词,得到个词的集合,取中任意词若若则遍历得到的每一个别名通过使用开源的生物医学预训练模型
BioBERT
,得到的特征向量最后得到如下的别名偏置项特征最后得到如下的别名偏置项特征若则为空,对补充辅助特征后,本发明使用余弦相似度
(Cosine Similarity)
计算某一名词与其他个名词之间的相似度,即判断某中医药名词
h
k
在中是否存在其他同义名词,通过
BioBERT
模型得到
h
k
的特征向量及其他任意词的特征向量按如下公式计算余弦相似度:其中,“·”表示向量点积,“||
·
||”表示向量的欧几里得模,和分别表示中医药实体的偏置项,中医药名词没有偏置项时对应的或为
0。
对中任意实体和给定相似度阈值
Ψ
(
Ψ
>
0)
,若则将实体
指代为实体进而对整个文本数据中所有提及进行实体对齐:其中,表示实体最终指代中医药公共实体库中第个中医药实体,“g()”表示实体对齐方法
。
将所有实体及其提及对齐后,更新文本数据得到对齐后的数据集得到对齐后的数据集
S1.2
:中医药数据标注本发明凝练了“现象表达”、“被治疗”和“治法是”这3类中医药核心实体关系范式,针对关系范式按照通用的文档级数据集
DocRED
格式标注,在对齐后的数据中标注出中医药实体及其位置和关系佐证句子,得到对应的标注数据
L
,
L
=
[l1,
l2,
...
,
l
n
]
,并将标注好的数据集
L
按照一定比例划分为训练数据集
D
train
和测试数据集
D
val
,即
L
=
D
train
∪D
eev
,其中
D
train
用于训练模型,
D
dev
用于评估模型识别精度
。3.
根据权利要求1所述的一种基于本地路径增强的中医药文档级关系抽取方法
、
系统
、
电子设备及介质,其特征在于,所述步骤
S2
进一步包括以下具体步骤:
S2.1
:中医药实体路径构造本发明使用以下4条启发式规则在标注数据集
L
中获取中医药实体间存在关联性的句子并连接起来构造路径,路径格式为子并连接起来构造路径,路径格式为其中
η
(
η
>
0)
表示连接头实体
e
head
和尾实体
e
tail
的句子数量
。S2.1.1
:连续路径构造对于训练数据集
D
train
=
[d1,
d2,
...
,
d
k
](k
>
0)
,将中的中医药实体构造成实体集合由于中医药文档中实体关系存在因果性,通常出现在相邻的文本中,因此设置最小邻域阈值
γ
(
γ
>
0)
,选择中任意两个不同中医药实体头
e
ω
和尾实体
e
w
,要求
(
表示
e
ω
在中的句子索引,表示
e
w
在中的句子索引
)。
若存在符合要求的中医药实体
e
ω
和
e
w
,则可基于二者所在句子构建连续路径,当时,为
e
ω
和
e
w
同时出现在一个单句的情况
。
遍历
D
train
进行连续路径构造,得到连续路径集
S2.1.2
:关键路径构造在中医药文档数据中,带有“诊断”、“证型”和“中医治法”等中医药规约关键词的句子相比于其他句子,是佐证中医药关系的关键句,对中医药实体关系抽取任务具有更高的优先级
。
本发明设计中医药规约关键词库本发明设计中医药规约关键词库对于训练数据集
D
train
=
[d1,
d2,
...
,
d
k
]
,若中任意一个关键词
k
o
(0
<
o
<
r)
与任意两个不同类型中医药头实体
e
c
和尾实体
e
v
出现在
d
s
(0
<
s
<
k)
中同一个最小邻域,则可基于
k
i
、e
c
和
e
v
所在句子构造一条路径
。
考虑到该句已包含于连续路径中,因此设定一个标记符
[
′
key
′
]
来标注这条路径为关键路径,表示为遍历
D
train
进行关键路径构造,得到关
键路径集
S2.1.3
:多跳路径构造对于中医药文档中相距较远的中医药头实体
e
y
和尾实体
e
u
,即,即若存在一系列桥接提及实体使得在句子集合中形成个具有桥接关系的句间实体对则可以基于生成的实体对,构造一条将中医药头实体
e
y
和医药尾实体
e
u
连接起来的多跳路径
。
考虑到中医药文档中实体间存在相互关联的特点,即出现中医药关系的实体不需要太多的实体进行桥接,故设置阈值
α
(
α
>
0)
,即最多仅需要
α
个桥接实体
。
遍历
D
train
进行多跳路径构造,得到多跳路径集
S2.1.4
:默认路径构造当以上3种规则都不适用时,考虑使用最相关的句子进行中医药关系辅证的粗略估计,对于
d
b
(0
<
b
<
k)
中没有路径关系的中医药头实体
e
h
和尾实体
e
t
,收集所有包含
e
h
和
e
t
的句子作为默认路径
。
具体而言,假设和分别表示包含
e
h
和
e
t
的句子集合,若
e
h
和
e
t
之间不存在路径,则将进行连接构造一条默认路径
。
遍历
D
train
进行默认路径构造,得到默认路径集从而得到完整的路径集集并使用
BioBERT
将映射为特征集合,表示为映射为特征集合,表示为
τ
(
τ
>
0)
为特征集合中路径特征的数量
。S2.2
:中医药特征提取本发明综合利用中医药方剂知识,基于
...
【专利技术属性】
技术研发人员:黄泽昊,石云成,刘琼,王笳辉,谢文飞,段亮,岳昆,
申请(专利权)人:云南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。