基于BERT-span模型的康复医学命名实体识别方法及系统技术方案

技术编号:37509323 阅读:24 留言:0更新日期:2023-05-07 09:48
本发明专利技术提供一种基于BERT

【技术实现步骤摘要】
基于BERT

span模型的康复医学命名实体识别方法及系统


[0001]本专利技术涉及命名实体识别
,具体涉及一种基于BERT

span模型的康复医学命名实体识别方法及系统。

技术介绍

[0002]康复医学领域的命名实体识别作为知识图谱构建的初始阶段任务,能够帮助医学从业人员、学者及患者在海量的康复数据中高效、便捷地获取想要的康复知识,进而服务于后续的康复医疗服务或康复研究;同时,通过命名实体识别提取出来的实体可以应用在康复医学知识图谱、康复信息决策系统等的构建过程中,以进一步密切关联相关康复医学信息,其意义重大。
[0003]目前,基于规则和基于统计的命名实体识别方法(如基于BERT+softmax模型的命名实体识别方法和BERT+BiLSTM

CRF的命名实体识别方法等)已日趋成熟,在一些宽泛的领域(如汽车领域、法律文书领域等)中已经具有很高的精度。另外,在临床医学中,也有基于上述方法利用电子病历进行命名实体识别的技术,且相关技术已经日趋成熟。
[0004]然而,针对一些特定的垂直领域(如康复医学领域等),由于其相关知识的专业性、复杂性等特点,命名实体识别难度较大,如果再继续使用上述方法进行命名实体识别,则识别精度和识别效率均无法满足要求。

技术实现思路

[0005](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于BERT

span模型的康复医学命名实体识别方法及系统,解决了现有命名实体识别方法在进行特定领域命名实体识别时存在识别精度低和识别效率低的问题。
[0006](二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:第一方面,本专利技术首先提出了一种基于BERT

span模型的康复医学命名实体识别方法,所述方法包括:基于LDA模型对获取的康复医学领域相关数据进行康复医学领域实体分类,并对分类后的康复医学领域实体进行标注,并以所述康复医学领域实体及其对应的标注构建康复医学领域语料库;基于BERT模型和span模型构建康复医学命名实体识别模型,并利用所述康复医学领域语料库训练所述康复医学命名实体识别模型;利用训练后的所述康复医学命名实体识别模型进行康复医学命名实体识别。
[0007]优选的,基于LDA模型对获取的康复医学领域相关数据进行康复医学领域实体分类,并对分类后的康复医学领域实体进行标注,并以所述康复医学领域实体及其对应的标注构建康复医学领域语料库包括:
S11、获取康复医学领域相关数据,并利用预先构建的医学停用词表对所述康复医学领域相关数据进行预处理;所述预先构建的医学停用词表为在传统停用词表中加入医学文本中专有的停用词;S12、基于LDA模型对预处理后的所述康复医学领域相关数据进行康复医学领域实体分类;S13、运用BIO序列标注方法对分类后的所述康复医学领域实体进行标注;S14、基于标注一致性原则对标注结果进行检验,并基于检验结果满足预设要求的所述康复医学领域实体及其对应的标注构建康复医学领域语料库。
[0008]优选的,所述S12包括:基于困惑度指标的变化趋势确定康复医学领域实体种类的数量;针对每一类康复医学领域实体分别聚类关键词;基于所述关键词确定康复医学领域实体。
[0009]优选的,所述基于BERT模型和span模型构建康复医学命名实体识别模型,并利用所述康复医学领域语料库训练所述康复医学命名实体识别模型包括:S21、基于BERT模型和span模型构建康复医学命名实体识别模型;所述康复医学命名实体识别模型为:BERT模型的输出结果直接作为span模型的输入;S22、将所述康复医学领域语料库中带有标注的文本输入到所述康复医学命名实体识别模型中,并将所述康复医学命名实体识别模型输出的识别结果与所标注的每个实体所对应的真实结果进行对比,以此对所述康复医学命名实体识别模型进行训练;S23、重复S22步骤直到所述康复医学命名实体识别模型的损失函数值达到预设阈值时停止训练。
[0010]优选的,所述损失函数的计算公式包括:
[0011][0012][0013][0014]其中,和分别表示每个实体开始和实体结束的交叉熵损失熵;表示实体开始和实体结束组合的交叉熵损失熵;L表示最后总体的损失值;CE(P,Y)表示利用模型预测的实体位置的预测概率值和语料库中实体位置的真实值的损失函数;、、分别表示通过模型预测的实体的起始位置预测概率、结束位置索引预测概率、起始位置到结束位置索引之间范围的预测概率值;Y表示语料库中所标注的每个实体位置的真实值,、、分别表示真实语料库中的实体的起始位置真实值、结束位置索引真实值、范围真实值;是超参数。
[0015]第二方面,本专利技术还提出了一种基于BERT

span模型的康复医学命名实体识别系统,所述系统包括:康复医学领域语料库获取模块,用于基于LDA模型对获取的康复医学领域相关数
据进行康复医学领域实体分类,并对分类后的康复医学领域实体进行标注,并以所述康复医学领域实体及其对应的标注构建康复医学领域语料库;康复医学命名实体识别模型构建及训练模块,用于基于BERT模型和span模型构建康复医学命名实体识别模型,并利用所述康复医学领域语料库训练所述康复医学命名实体识别模型;康复医学命名实体识别结果获取模块,用于利用训练后的所述康复医学命名实体识别模型进行康复医学命名实体识别,并获取识别结果。
[0016]优选的,所述康复医学领域语料库获取模块基于LDA模型对获取的康复医学领域相关数据进行康复医学领域实体分类,并对分类后的康复医学领域实体进行标注,并以所述康复医学领域实体及其对应的标注构建康复医学领域语料库包括:S11、获取康复医学领域相关数据,并利用预先构建的医学停用词表对所述康复医学领域相关数据进行预处理;所述预先构建的医学停用词表为在传统停用词表中加入医学文本中专有的停用词;S12、基于LDA模型对预处理后的所述康复医学领域相关数据进行康复医学领域实体分类;S13、运用BIO序列标注方法对分类后的所述康复医学领域实体进行标注;S14、基于标注一致性原则对标注结果进行检验,并基于检验结果满足预设要求的所述康复医学领域实体及其对应的标注构建康复医学领域语料库。
[0017]优选的,所述S12包括:基于困惑度指标的变化趋势确定康复医学领域实体种类的数量;针对每一类康复医学领域实体分别聚类关键词;基于所述关键词确定康复医学领域实体。
[0018]优选的,所述康复医学命名实体识别模型构建及训练模块基于BERT模型和span模型构建康复医学命名实体识别模型,并利用所述康复医学领域语料库训练所述康复医学命名实体识别模型包括:S21、基于BERT模型和span模型构建康复医学命名实体识别模型;所述康复医学命名实体识别模型为:BERT模型的输出结果直接作为span模型的输入;S22、将所述康复医学领域语料库中带有标注的文本输入到所述康复医学命名实体识别模型中,并将所述康复本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT

span模型的康复医学命名实体识别方法,其特征在于,所述方法包括:基于LDA模型对获取的康复医学领域相关数据进行康复医学领域实体分类,并对分类后的康复医学领域实体进行标注,并以所述康复医学领域实体及其对应的标注构建康复医学领域语料库;基于BERT模型和span模型构建康复医学命名实体识别模型,并利用所述康复医学领域语料库训练所述康复医学命名实体识别模型;利用训练后的所述康复医学命名实体识别模型进行康复医学命名实体识别。2.如权利要求1所述的方法,其特征在于,基于LDA模型对获取的康复医学领域相关数据进行康复医学领域实体分类,并对分类后的康复医学领域实体进行标注,并以所述康复医学领域实体及其对应的标注构建康复医学领域语料库包括:S11、获取康复医学领域相关数据,并利用预先构建的医学停用词表对所述康复医学领域相关数据进行预处理;所述预先构建的医学停用词表为在传统停用词表中加入医学文本中专有的停用词;S12、基于LDA模型对预处理后的所述康复医学领域相关数据进行康复医学领域实体分类;S13、运用BIO序列标注方法对分类后的所述康复医学领域实体进行标注;S14、基于标注一致性原则对标注结果进行检验,并基于检验结果满足预设要求的所述康复医学领域实体及其对应的标注构建康复医学领域语料库。3.如权利要求2所述的方法,其特征在于,所述S12包括:基于困惑度指标的变化趋势确定康复医学领域实体种类的数量;针对每一类康复医学领域实体分别聚类关键词;基于所述关键词确定康复医学领域实体。4.如权利要求2所述的方法,其特征在于,所述基于BERT模型和span模型构建康复医学命名实体识别模型,并利用所述康复医学领域语料库训练所述康复医学命名实体识别模型包括:S21、基于BERT模型和span模型构建康复医学命名实体识别模型;所述康复医学命名实体识别模型为:BERT模型的输出结果直接作为span模型的输入;S22、将所述康复医学领域语料库中带有标注的文本输入到所述康复医学命名实体识别模型中,并将所述康复医学命名实体识别模型输出的识别结果与所标注的每个实体所对应的真实结果进行对比,以此对所述康复医学命名实体识别模型进行训练;S23、重复S22步骤直到所述康复医学命名实体识别模型的损失函数值达到预设阈值时停止训练。5.如权利要求4所述的方法,其特征在于,所述损失函数的计算公式包括:,,,;其中,和分别表示每个实体开始和实体结束的交叉熵损失熵;表示实体开始和实体结束组合的交叉熵损失熵;L表示最后总体的损失值;CE(P,Y)表示利用模型预测的实
体位置的预测概率值和语料库中实体位置的真实值的损失函数;、、分别表示通过模型预测的实体的起始位置预测概率、结束位置索引预测概率、起始位置到结束位置索引之间范围的预测概率值;Y表示语料库中所标注的每个实体位置的真实值,、、分别表示真实语料库中的实体的起始位置真实值、结束位置索引真实值、范围真实值;是超参数。6.一种基于BERT

span模型的康复医学命名实体识别系统,其特征在于,所述系...

【专利技术属性】
技术研发人员:钟金宏宣占祥王康黎梦萍程周
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1