一种基于疾病领域知识图谱的问答匹配系统技术方案

技术编号:28785477 阅读:19 留言:0更新日期:2021-06-09 11:20
本发明专利技术公开了一种基于疾病领域知识图谱的问答匹配系统,包括预处理模块、命名实体识别模块、实体链接模块及关系匹配模块,本发明专利技术解决了现有技术中通用领域的语义表示模型在疾病领域中语义表示不足,出现实体存在识别边界错误的情况,并且会进一步影响实体链接的效果,最终导致答案准确率较低的问题。最终导致答案准确率较低的问题。最终导致答案准确率较低的问题。

【技术实现步骤摘要】
一种基于疾病领域知识图谱的问答匹配系统


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于疾病领域知识图谱的问答匹配系统。

技术介绍

[0002]问答系统是自然语言处理领域中常见的一种应用,作为信息检索系统的一种常见的表现形式,其可以通过对用户输入的问题进行分析,借助深度学习等算法从众多信息中迅速获取准确有效的信息返回用户,回答用户的问题,满足用户对快速获取准确信息的需求。
[0003]知识图谱以接近人类认知思维的形式对数据进行组织和理解,为互联网上海量、异构、动态的大数据管理和使用提供了一种优秀的解决方案。知识图谱综合了众多方面的技术和方法,有知识表示、知识抽取(命名实体识别、关系抽取等)、知识融合、知识存储、知识推理、图计算、可视化、语义搜索、知识问答、知识众包等。知识图谱一般遵循RDF三元组数据结构,即(s,p,o)形式,对应主实体subject、关系predicate、尾实体object。知识图谱包含数千万级或者亿级规模实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),这些实体被组织在成千上万由语义体现的客观世界概念结构中。图1展示了冠心病领域知识图谱的一部分,箭头表示关系,箭头从主实体指向尾实体。圆圈表示实体或属性,实体是对客观个体的抽象,如身体部位、疾病、症状。而属性值是用来描述实体的,分为文本型和数值型,如“不能治愈”、“80%”。
[0004]基于医疗知识图谱的问答系统,可以帮助用户在海量医疗数据中筛选出问题的精准答案并返回给用户,同时借助结构化的知识图谱,可为答案提供一定的解释性。
[0005]现有技术中存在的缺陷是:
[0006]1、基于通用领域的词向量表示模型缺乏领域知识,导致原因是BERT是在通用语料上进行预训练,而疾病领域专业术语较多,实体较复杂,如“风湿性二尖瓣狭窄”本身是一个完整的实体,同时也嵌套了疾病实体“二尖瓣狭窄”,但由于风湿性二尖瓣狭窄在常见的通用训练语料上出现较少,导致对应的语义向量学习较差,仅识别出二尖瓣狭窄。
[0007]2、基于流水线的实体链接和实体识别过程存在累积错误,导致原因是流水线是指实体链接和实体识别是串行的过程,实体链接是基于实体识别的结果进行判断,导致错误传递。当实体识别模块输出错误的实体提及,会导致实体无法链接到知识图谱中真正的实体词。

技术实现思路

[0008]为了克服现有技术存在的两种缺陷,本专利技术提供一种基于疾病领域知识图谱的问答匹配系统。
[0009]本专利技术采用如下技术方案:
[0010]一种基于疾病领域知识图谱的问答匹配系统,包括:
[0011]预处理模块,用于针对用户输入的问题进行预处理,记预处理模块输出Q;
[0012]命名实体识别模块,用于确定实体提及的起始位置和结束位置,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,根据起始位置和结束位置的概率确定实体提及的起始位置和结束位置,该命名实体识别模块使用BERT
domain
进行微调;
[0013]实体链接模块,用于将实体提及链接到疾病知识图谱中的实体词,并通过该实体词检索在疾病知识图谱中对应的所有关系;
[0014]关系匹配模块,用于将实体词对应的关系与预处理模块的输出Q进行匹配,判断是否与用户问题一致,一致则输出,且使用BERT
domain
进行微调。
[0015]进一步,所述预处理包括对用户输入的文字问题使用正则化去除空格及标点符号,并且将字母统一为小写。
[0016]进一步,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,确定实体提及,具体为:
[0017]通过疾病领域预训练后的BERT
domain
模型对预处理模块的输出Q进行编码输出特征向量,该特征向量经过两个Softmax分类层预测每个字符作为实体提及开始位置和结束位置的概率,实体开始位置和结束位置对应的字符串即为实体提及。
[0018]进一步,获取疾病疾领域的BERT
domain
模型的预训练过程为:
[0019]首先将临床诊疗文献以及电子病历中疾病名称存为词典文件;
[0020]然后将临床诊疗文献以及电子病历中的文本内容按找标点符号切分为句子;
[0021]对切分后的句子使用最大词典匹配法查找句子是否包含了词典文件中的疾病词,若包含该疾病词,则将该疾病词进行遮蔽,即将该疾病词替换为MASK;对于不包含疾病词的句子,则随机遮蔽某个字符,由此构造疾病领域的MLM任务数据集;
[0022]最后通过MLM任务数据集对BERT模型进行预训练,MLM任务的目标是通过句子的上下文信息预测被替换为MASK的词,从而使得模型学习到句子的双向信息,通过MLM任务获得BERT
domain
模型以及字符向量E
char

[0023]进一步,所述命名实体识别模块中使用BERT
domain
进行微调,微调是在BERT
domain
的基础上添加面向下游任务的网络参数,并微调整个网络的参数,命名实体识别模块是在BERT
domain
的基础上分别拼接两个softmax分类层,分别用于预测输出Q中各个字符作为实体提及起始位置和结束位置的概率。另外,在微调阶段将BERT
domain
原始输入中的段编码替换为分词编码。微调阶段中BERT
domain
的网络参数使用预训练阶段保存的模型参数进行初始化。
[0024]进一步,命名实体识别模块实体提及起始位置和结束位置的概率采用如下公式计算:
[0025][0026]其中,L是Q的字符个数,表示Q中第k个字符c
k
的特征编码,是BERT
domain
输出,h
k
是Softmax分类层的网络参数。
[0027]进一步,所述分词编码具体为:通过分词工具对输出Q进行切分,根据分词结果为每个字符打上一个标签,标签集合为{B,M,E,S},其中B代表这个字符是词汇的开始字符,M代表这个字符是词汇的中间字符,E代表这个字符是词汇的结束字符,而S代表单字词,对应分词编码分别为E
B
、E
M
、E
S
、E
E

[0028]进一步,所述实体链接模块通过检索的方式实现,具体分为两阶段,离线阶段和在线查找阶段:
[0029]离线阶段:将疾病知识图谱中的实体词以及实体别名按字切分,统计TF

IDF;
[0030]对统计后的实体词建立字索引,记录出现过包含某个字的所有实体词以及该字在实体词中出现的位置信息;
[0031]在线查找阶段:用户输入的问题经过预处理得到Q,通过命名实体识别模块得到实体提及,对实体提及按字切分,查找对应的字索引。按照TF

IDF累本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于疾病领域知识图谱的问答匹配系统,其特征在于,包括:预处理模块,用于针对用户输入的问题进行预处理,记预处理模块输出Q;命名实体识别模块,用于确定实体提及的起始位置和结束位置,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,根据起始位置和结束位置的概率确定实体提及的起始位置和结束位置,该命名实体识别模块使用BERT
domain
进行微调;实体链接模块,用于将实体提及链接到疾病知识图谱中的实体词,并通过该实体词检索在疾病知识图谱中对应的所有关系;关系匹配模块,用于将实体词对应的关系与用户输入问题进行匹配,判断是否与用户问题一致,一致则输出,且使用BERT
domain
进行微调。2.根据权利要求1所述的问答匹配系统,其特征在于,所述预处理包括对用户输入的文字问题使用正则化去除空格及标点符号,并且将字母统一为小写。3.根据权利要求1所述的问答匹配系统,其特征在于,预测输出Q中各个字符作为句子实体提及开始位置和结束位置的概率,确定实体提及,具体为:通过疾病领域预训练后的BERT
domain
模型对预处理模块的输出Q进行编码输出特征向量,该特征向量经过两个Softmax分类层预测每个字符作为实体提及开始位置和结束位置的概率,实体开始位置和结束位置对应的字符串即为实体提及。4.根据权利要求1

3任一项所述的问答匹配系统,其特征在于,获取疾病疾领域的BERT
domain
模型的预训练过程为:首先将临床诊疗文献以及电子病历中疾病名称存为词典文件;然后将临床诊疗文献以及电子病历中的文本内容按找标点符号切分为句子;对切分后的句子使用最大词典匹配法查找句子是否包含了词典文件中的疾病词,若包含该疾病词,则将该疾病词进行遮蔽,即将该疾病词替换为MASK;对于不包含疾病词的句子,则随机遮蔽某个字符,由此构造疾病领域的MLM任务数据集;最后通过MLM任务数据集对BERT模型进行预训练,MLM任务的目标是通过句子的上下文信息预测被替换为MASK的词,从而使得模型学习到句子的双向信息,通过MLM任务获得BERT
domain
模型以及字符向量E
char
。5.根据权利要求3所述的问答匹配系统,其特征在于,所述命名实体识别模块中使用BERT
domain
进行微调,微调是在BERT
domain
的基础上添加面向下游任务的网络参数,并微调整...

【专利技术属性】
技术研发人员:倪妙玲孙庆华王聪
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1