System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于医学文本的医疗知识问答方法技术_技高网

一种基于医学文本的医疗知识问答方法技术

技术编号:44889066 阅读:3 留言:0更新日期:2025-04-08 00:26
本发明专利技术属于医疗知识问答技术领域,提出了一种基于医学文本的医疗知识问答方法。该方法从获取的医疗相关数据包括网络公开数据集和网络医疗讨论帖,通过获取的数据建立命名实体模型和意图识别模型,前者包含词嵌入层、特征提取层和实体标注层,后者则包含词嵌入层、特征提取层、注意力机制层和输出层。该方法还构建了医疗知识图谱,包括数据预处理、医疗文本数据的命名实体处理、实体对齐,以及使用Neo4j图数据库存储医疗知识。用户问句经过实体识别和实体链指预处理后,被转化为Cypher查询语句,在医疗知识图谱中检索答案。本发明专利技术结合了命名实体识别、意图识别和知识图谱技术,旨在提高医疗知识问答的准确性和效率,为用户提供更可靠的医疗信息解答。

【技术实现步骤摘要】

本专利技术涉及医疗知识问答,特别是涉及一种基于医学文本的医疗知识问答方法


技术介绍

1、随着医疗技术的不断进步和互联网的广泛普及,医疗领域的信息量呈现爆炸式增长。然而,面对海量的医疗数据,如何高效地获取、整合并利用这些信息,成为了一个亟待解决的问题。特别是在医疗问答领域,用户往往希望通过简洁明了的方式获取到针对自己健康状况或疾病问题的专业解答。

2、传统的医疗问答系统大多依赖于人工构建的知识库或问答对,这种方式虽然在一定程度上能够满足用户的需求,但存在知识更新不及时、覆盖范围有限等问题。此外,随着自然语言处理(nlp)技术的快速发展,基于文本的医疗问答方法逐渐崭露头角。然而,这些方法在处理复杂的医学问题时,往往面临着实体识别不准确、意图理解不清晰等挑战。

3、为了克服上述不足,亟需一种更加高效、准确的基于医学文本的医疗知识问答方法,以更好地满足用户对医疗信息的查询需求。


技术实现思路

1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于医学文本的医疗知识问答方法,用于解决现有技术中实体识别不准确、意图理解不清晰、以及查询效率低下等问题。

2、为实现上述目的及其他相关目的,本专利技术提供一种基于医学文本的医疗知识问答方法,包括以下步骤:

3、s1、从多个医疗问诊网站获取医疗相关数据,所述医疗相关数据包括网络公开数据集和网络医疗讨论帖;所述网络公开数据集包括从专业医疗信息网站网页爬虫解析获取的半结构化数据、开源的结构化知识图谱数据集以及开源医疗数据集和医疗文献类的非结构化数据,所述网络医疗讨论帖包括用户真实提问的医疗问题和专业医生回答的答案,收集网络医疗讨论帖清洗后存入到elasticsearch中,用于作为检索数据集;

4、s2、基于获取的所述网络公开数据集建立命名实体模型,基于所述检索数据集建立意图识别模型,所述命名实体模型包括词嵌入层、特征提取层和实体标注层,所述意图识别模型包括词嵌入层、特征提取层、注意力机制层和输出层;

5、s3、基于所述命名实体模型处理的实体构建医疗知识图谱;具体的:

6、s31、对收集到的医疗数据进行预处理,包括数据清洗、去重、格式化;

7、s32、利用建立好的命名实体模型对收集到的医疗文本数据进行处理,识别并标注出其中的医学实体,在抽取到实体后,进行实体对齐,以确保不同数据源中的相同实体在知识图谱中只存在一个节点;

8、s33、选择neo4j图数据库作为存储医疗知识的工具,使用py2neo模块连接neo4j数据库,读取整理好的数据文件,将数据实例化为对应的医疗节点和关系,通过cypher语句创建图数据库中的实体节点和节点间的关系;

9、s4、将用户问句进行实体识别和实体链指预处理,将实体识别和实体链指的结果转化为cypher查询语句,在所述知识图谱中检索答案。

10、可选地,在s2步骤中,所述命名实体模型和意图识别模型的词嵌入层均采用roberta-wwm模型,计算初始的词嵌入向量,计算公式如下: 

11、

12、其中,是初始的词嵌入向量,为词嵌入矩阵,为位置嵌入矩阵,为第层的隐藏层状态,代表transformer编码器,为transformer的最大层数,初始输入为。

13、可选地,在s2步骤中,所述命名实体模型和意图识别模型的特征提取层均采用bilstm网络,对词嵌入层输出的语义特征向量进行双向编码,生成包含上下文信息的特征向量序列,组合正向与反向的序列,计算得到包含上下文信息的特征向量,计算公式如下:

14、

15、其中,和分别为模型正向lstm网络输出的序列和反向lstm网络在时间步的输出,表示两者在时间步进行拼接生成的包含上下文信息的特征向量。

16、可选地,在s2步骤中,所述命名实体模型的实体标注层采用globalpointer模型,设计a层的全局指针,每层单独处理一种类型的实体,计算打分函数,选取最优的标注序列进行输出,计算公式如下:

17、

18、其中,表示位置到位置的实体的得分,和分别是位置和位置处的实体的向量表示,为实体类型的索引,表示转置操作,用于将向量转置为的向量形状。

19、可选地,在s2步骤中,在所述意图识别模型的注意力机制层中,输入包含上下文信息的特征向量序列,线性变换得到查询向量、键向量和值向量;

20、通过查询向量、键向量计算注意力权重,计算公式如下:

21、

22、其中,为键向量k的维度,表示k的转置操作,为注意力权重,表示注意力权重是一个维的实数向量,其中是序列长度;

23、计算值向量和注意力权重的加权和,公式如下:

24、

25、其中,是序列长度,为第个序列位置的注意力权重,第个序列位置经过线性变换后的值向量,表示值向量是一个维的实数向量,其中是值向量的维度。

26、可选地,在s2步骤中,所述意图识别模型的输出层使用softma医疗知识问答激活函数,将文本分到每个类别的概率分布向量,概率值最大的类别即为分类结果,公式如下:

27、

28、其中,和分别为参数矩阵和偏置向量,为注意力机制层的输出;

29、输出意图分类的结果为:

30、

31、其中,y为一个向量,其元素对应不同类别的概率,为返回概率最大的类别的索引。

32、可选地,所述意图识别模型的损失函数如下:

33、

34、其中,为样本数量,为类别数,为第个样本第个类别的真实标签,是模型预测的个样本第个类别的概率。

35、可选地,所述实体识别预处理,具体步骤如下:

36、通过分析问诊记录,确定高频否定用词;

37、采用前向匹配算法判断用户问句是否包含所述高频否定用词,最大连续长度设置为2;

38、在识别问句意图后,否定词若出现在实体外,则对否定语句进行删除,删除范围为否定词的位置,到句子下一个标点符号的位置。

39、可选地,所述实体链指预处理,具体步骤如下:

40、将知识图谱中的实体通过sentence-bert转化为向量形式并保存;

41、对用户问句中的实体进行向量化操作,计算与知识图谱中实体的语义相似度;

42、选取多个得分最高的实体,通过字符匹配确定最终的链指结果。

43、可选地,所述将实体识别和实体链指的结果转化为cypher查询语句,在所述知识图谱中检索答案,具体步骤如下:

44、通过实体识别和实体链指得到问句中的医疗实体及其在知识图谱中的映射;

45、通过所述意图识别模型确定问句的意图类型;

46、构建cypher查询语句,在知识图谱中查询相关信息;

47、返回符合用户意图的答案。

48、如上所述,本发本文档来自技高网...

【技术保护点】

1.一种基于医学文本的医疗知识问答方法,其特征在于,包括:

2.根据权利要求1所述的一种基于医学文本的医疗知识问答方法,其特征在于:在S2步骤中,所述命名实体模型和意图识别模型的词嵌入层均采用RoBERTa-wwm模型,计算初始的词嵌入向量,计算公式如下: 

3.根据权利要求2所述的一种基于医学文本的医疗知识问答方法,其特征在于:在S2步骤中,所述命名实体模型和意图识别模型的特征提取层均采用BiLSTM网络,对词嵌入层输出的语义特征向量进行双向编码,生成包含上下文信息的特征向量序列,组合正向与反向的序列,计算得到包含上下文信息的特征向量,计算公式如下:

4.根据权利要求3所述的一种基于医学文本的医疗知识问答方法,其特征在于:在S2步骤中,所述命名实体模型的实体标注层采用GlobalPointer模型,设计a层的全局指针,每层单独处理一种类型的实体,计算打分函数,选取最优的标注序列进行输出,计算公式如下:

5.根据权利要求4所述的一种基于医学文本的医疗知识问答方法,其特征在于:在S2步骤中,在所述意图识别模型的注意力机制层中,输入包含上下文信息的特征向量序列,线性变换得到查询向量、键向量和值向量;

6.根据权利要求5所述的一种基于医学文本的医疗知识问答方法,其特征在于:在S2步骤中,所述意图识别模型的输出层使用softma医疗知识问答激活函数,将文本分到每个类别的概率分布向量,概率值最大的类别即为分类结果,公式如下:

7.根据权利要求6所述的一种基于医学文本的医疗知识问答方法,其特征在于:所述意图识别模型的损失函数如下:

8.根据权利要求7所述的一种基于医学文本的医疗知识问答方法,其特征在于:所述实体识别预处理,具体步骤如下:

9.根据权利要求8所述的一种基于医学文本的医疗知识问答方法,其特征在于:所述实体链指预处理,具体步骤如下:

10.根据权利要求9所述的一种基于医学文本的医疗知识问答方法,其特征在于:所述将实体识别和实体链指的结果转化为Cypher查询语句,在所述知识图谱中检索答案,具体步骤如下:

...

【技术特征摘要】

1.一种基于医学文本的医疗知识问答方法,其特征在于,包括:

2.根据权利要求1所述的一种基于医学文本的医疗知识问答方法,其特征在于:在s2步骤中,所述命名实体模型和意图识别模型的词嵌入层均采用roberta-wwm模型,计算初始的词嵌入向量,计算公式如下: 

3.根据权利要求2所述的一种基于医学文本的医疗知识问答方法,其特征在于:在s2步骤中,所述命名实体模型和意图识别模型的特征提取层均采用bilstm网络,对词嵌入层输出的语义特征向量进行双向编码,生成包含上下文信息的特征向量序列,组合正向与反向的序列,计算得到包含上下文信息的特征向量,计算公式如下:

4.根据权利要求3所述的一种基于医学文本的医疗知识问答方法,其特征在于:在s2步骤中,所述命名实体模型的实体标注层采用globalpointer模型,设计a层的全局指针,每层单独处理一种类型的实体,计算打分函数,选取最优的标注序列进行输出,计算公式如下:

5.根据权利要求4所述的一种基于医学文本的医疗知识问答方...

【专利技术属性】
技术研发人员:马野吴瑞雪段雷燕林智耿
申请(专利权)人:深圳市粤智康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1