System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自然问答与知识图谱的辅助医疗管理方法及系统技术方案_技高网

基于自然问答与知识图谱的辅助医疗管理方法及系统技术方案

技术编号:42616859 阅读:6 留言:0更新日期:2024-09-03 18:22
本发明专利技术提供基于自然问答与知识图谱的辅助医疗管理方法及系统,涉及医疗管理技术领域,包括使用预训练的BERT模型识别出医疗文本中的医疗实体;利用预训练的BERT模型选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组;将医疗实体、候选答案和知识三元组分别输入三个独立的BiGRU编码器进行特征提取,解码器根据当前隐藏状态、注意力语境向量以及之前生成的词预测下一个答案词的概率分布,通过极大似然估计来生成自然语言形式的答案文本。

【技术实现步骤摘要】

本专利技术涉及医疗管理技术,尤其涉及基于自然问答与知识图谱的辅助医疗管理方法及系统


技术介绍

1、近年来,人工智能技术在医疗健康领域得到了广泛应用。特别是随着自然语言处理、知识图谱等技术的发展,智能问答系统为辅助医疗管理提供了新的可能。传统的医疗管理主要依赖医生的经验和专业知识,存在效率低、成本高、主观性强等问题。因此,亟需开发一种基于自然问答与知识图谱的辅助医疗管理系统,帮助医生快速、准确地获取所需信息,提高医疗管理的智能化水平。

2、目前,医疗领域的问答系统主要有以下几类:基于规则的问答系统、基于检索的问答系统和基于知识图谱的问答系统。基于规则的方法通过构建问题模板和答案模板,利用模式匹配实现问答,但需要大量人工构建规则,扩展性差。基于检索的方法通过在文本库中搜索与问题相似度最高的句子作为答案,但难以处理复杂问题和生成完整答案。基于知识图谱的方法利用结构化的知识表示问题和答案,通过语义解析和推理生成答案,能够提供更精准、全面的答案。

3、在现有基于知识图谱的医疗问答系统中,主要存在以下不足:1)知识图谱构建不完善,缺乏高质量的医疗知识;2)问题理解和语义解析能力有限,难以准确抽取问题中的关键信息;3)答案生成方式单一,缺乏多样性和灵活性;4)缺乏用户交互和反馈机制,难以适应实际应用场景。


技术实现思路

1、本专利技术实施例提供基于自然问答与知识图谱的辅助医疗管理方法及系统,能够解决现有技术中的问题。

2、本专利技术实施例的第一方面,

3、提供基于自然问答与知识图谱的辅助医疗管理方法,包括:

4、使用预训练的bert模型提取医疗文本每个词的语义向量,将bert模型提取的语义向量输入bilstm层进行序列编码,将bilstm层的输出向量送入crf层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体;

5、利用预训练的bert模型将自然语言问题转化为问题向量,计算问题向量与预先构建的医疗知识图谱中所有实体的嵌入向量之间的相似度,选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组;

6、将医疗实体、候选答案和知识三元组分别输入三个独立的bigru编码器进行特征提取,在seq2seq框架下使用注意力机制对bigru编码器的输出进行动态加权聚合,作为解码器各个时间步的注意力语境向量,解码器根据当前隐藏状态、注意力语境向量以及之前生成的词预测下一个答案词的概率分布,通过极大似然估计来生成自然语言形式的答案文本。

7、在一种可选的实施方式中,

8、将bilstm层的输出向量送入crf层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体包括:

9、确定bilstm层的输出向量对应的发射特征,所述发射特征用于度量bilstm层的输出向量与标签之间的相容性;

10、使用条件随机场模型对标签序列建模,通过发射特征和转移特征来刻画标签之间的依赖关系,其中,所述转移特征用于刻画相邻标签之间的依赖关系;

11、将所述发射特征和所述转移特征用于条件随机场模型的推断阶段,采用近似解码算法通过递推地保留每一推理步骤的多个候选标签序列,对超过预设长度阈值的候选标签序列进行提前终止;

12、对累积概率低于动态阈值的候选标签序列进行剪枝,对候选标签序列中的重复标签子串进行合并,以及根据预设的标签约束规则对不合法的标签组合进行剪枝,直到达到序列末尾,从所述多个候选标签序列中选取条件概率最大的作为全局最优的标签序列。

13、在一种可选的实施方式中,

14、采用近似解码算法通过递推地保留每一推理步骤的多个候选标签序列包括:

15、

16、其中,表示第i步beam search得到的第b个最优前缀标签序列的非规范化概率,b表示beam search中保留的候选序列索引,b'表示前一步beam search中保留的候选序列索引;yi表示当前时刻i的标签;表示前一步第b'个序列的结尾标签;表示相邻标签之间的转移特征值;f()表示发射特征函数,度量输入表示x在位置i与标签yi的相容性;n表示输入序列的长度。

17、在一种可选的实施方式中,

18、选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组包括:

19、获取目标问题的向量表示,计算所述问题向量与知识图谱中各实体向量的相似度,选取相似度最高的k个实体作为候选答案起点;

20、以所述候选答案起点为中心,采用top-k跳跃式搜索策略,在知识图谱上搜索长度不超过预设阈值l的关系路径,得到候选关系路径集合,其中,所述top-k跳跃式搜索策略在每一跳选取相似度最高的k个节点,并从整个搜索过程中选取综合相似度最高的k个节点,所述候选关系路径与所述问题向量的相似度采用基于注意力机制的编码器计算;

21、对于所述候选关系路径集合中的各候选关系路径,提取其包含的所有知识三元组,采用多粒度评分机制,计算各知识三元组与所述目标问题的相关性,所述多粒度评分机制包括单粒度评分、双粒度评分和整体评分,所述单粒度评分考虑三元组的头实体、关系和尾实体与问题的相似度,所述双粒度评分考虑三元组的头实体-关系、关系-尾实体和头实体-尾实体的组合与问题的相似度,所述整体评分考虑整个三元组与问题的相似度;

22、根据所述多粒度评分机制得到的各知识三元组的相关性,结合预设权重,计算各知识三元组的最终综合相关性得分,选取得分最高的知识三元组的尾实体作为所述目标问题的最终答案;如果不同知识三元组的尾实体不一致,则选取对应候选关系路径综合相关性得分最高的知识三元组的尾实体作为最终答案。

23、在一种可选的实施方式中,

24、以所述候选答案起点为中心,采用top-k跳跃式搜索策略,在知识图谱上搜索长度不超过预设阈值l的关系路径,得到候选关系路径集合包括:

25、获取知识图谱中当前节点的文本描述向量和问题的向量表示,计算两个向量的余弦相似度作为语义相似度打分项;

26、将语义相似度打分项与基于transe嵌入向量欧氏距离的原有打分项进行加权求和,得到改进的节点打分函数,所述改进的节点打分函数用于评估节点与问题的相关性;

27、基于知识图谱中实体的出现频率计算实体重要性权重,实体的出现频率越高,其重要性权重越低;

28、将实体重要性权重引入改进的节点打分函数,对打分结果进行调整;

29、使用基于注意力机制的路径编码器对关系路径进行表示学习,根据问题向量与路径中各关系向量的相似度计算路径注意力权重,通过加权求和获得路径向量,将多个路径向量进行汇总得到候选关系路径集合。

30、在一种本文档来自技高网...

【技术保护点】

1.基于自然问答与知识图谱的辅助医疗管理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将BiLSTM层的输出向量送入CRF层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体包括:

3.根据权利要求2所述的方法,其特征在于,采用近似解码算法通过递推地保留每一推理步骤的多个候选标签序列包括:

4.根据权利要求1所述的方法,其特征在于,选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组包括:

5.根据权利要求4所述的方法,其特征在于,以所述候选答案起点为中心,采用top-k跳跃式搜索策略,在知识图谱上搜索长度不超过预设阈值L的关系路径,得到候选关系路径集合包括:

6.根据权利要求5所述的方法,其特征在于,将实体重要性权重引入改进的节点打分函数包括:

7.根据权利要求1所述的方法,其特征在于,在Seq2Seq框架下使用注意力机制对BiGRU编码器的输出进行动态加权聚合,作为解码器各个时间步的注意力语境向量,解码器根据当前隐藏状态、注意力语境向量以及之前生成的词预测下一个答案词的概率分布,通过极大似然估计来生成自然语言形式的答案文本包括:

8.基于自然问答与知识图谱的辅助医疗管理系统,用于实现前述权利要求1-7中任一项所述的方法,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。

...

【技术特征摘要】

1.基于自然问答与知识图谱的辅助医疗管理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将bilstm层的输出向量送入crf层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体包括:

3.根据权利要求2所述的方法,其特征在于,采用近似解码算法通过递推地保留每一推理步骤的多个候选标签序列包括:

4.根据权利要求1所述的方法,其特征在于,选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组包括:

5.根据权利要求4所述的方法,其特征在于,以所述候选答案起点为中心,采用top-k跳跃式搜索策略,在知识图谱上搜索长度不超过预设阈值l的关系路径,得到候选关系路径集...

【专利技术属性】
技术研发人员:杨钟淇张辉杨瑞张明涛靳文强
申请(专利权)人:北京藜麦信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1