System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识校准和检索增强的医疗辅助问答方法及系统技术方案_技高网

一种基于知识校准和检索增强的医疗辅助问答方法及系统技术方案

技术编号:40435086 阅读:12 留言:0更新日期:2024-02-22 23:00
本发明专利技术提供一种基于知识校准和检索增强的医疗辅助问答方法及系统。该方法包括以下步骤:微调基座模型;评估微调后的基座模型中未掌握事实正确知识并校准,进而得到大语言模型;结合医学专业知识和医院的信息创建知识库,随即知识库内的每个文档创建树状索引;对知识库中每个文档片段和节点进行特征提取,进而构建向量数据库;识别用户意图并与向量数据库进行相似度匹配,进而结合知识图谱召回相关联知识数据;整合用户意图及相关联知识数据构建提示语模板,输入至大语言模型得到用户问题的答案。本发明专利技术通过对基座模型进行错误校准,克服其存在事实偏差的问题,且通过对相似度进行加权,增大向量相似度的区分度以减少漏检和误检。

【技术实现步骤摘要】

本专利技术涉及医疗辅助诊断,具体为一种基于知识校准和检索增强的医疗辅助问答方法及系统


技术介绍

1、大语言模型(large language model,简称llm)是基于transformer架构的自然语言处理模型,参数量大且经过了大量文本的训练,因此,llm可以贴近人类的语言认知和生成过程。与传统的nlp模型相比,llm能够更好地理解和生成自然文本,并具备一定的逻辑和推理能力,在文本分类、对话和生成等任务中展现出巨大潜力。从头设计和训练llm的成本很高,随着一批表现优异的预训练模型的开源,如llama2、chatglm、bloom、ziya等,基于开源模型的微调工作也成为了研究的热点。为适应各种特定场景,通常利用垂直领域数据对基座llm进行微调形成行业大模型,例如,北大团队发布的chatlaw模型是采用法律相关数据对ziya-llama-13b-v1模型进行了微调,度小满公司基于金融数据微调了bloom-176b模型得到了金融领域的轩辕大模型。

2、注入了行业高质量数据的微调模型可以在特定领域有更好的表现,但llm在推理过程中依然容易出现幻觉,尤其当模型对用户问题相关知识没有“记忆”,针对这类问题,可以借助大模型的上下文学习能力,为模型注入新知识。常见做法是引入向量数据库,实现向量rag,rag即为检索增强生成,是retrieval augmented generation的缩写。通过向量模型将语义压缩到多维的空间里的向量,借助向量数据库进行相关知识检索,将召回的片段与问题进行组合,通过模型上下文学习来减轻模型“幻觉”。采用领域数据对基座模型进行微调并利用模型上下文学习能力,是将llm应用于特定垂直领域的常见方案。

3、目前医疗大模型的主要研究重点为数据构建和训练推理方案优化。采用构建的领域高质量数据对llm进行微调以提升其在该领域上的表现,但基座模型训练数据的清洗相对不够充分,因此模型往往存在一些事实知识偏差。

4、为了缓解模型不具备特定知识时出现的“幻觉”问题,常见的方案是借助向量数据库实现对相关知识召回,再依靠llm的上下文学习能力,模型结合召回的专业知识进行推理生成。此类rag方案一般先将文档切片分段,然后采用向量模型将文本表示为一个低维稠密的向量,该过程称为embedding。向量可以离线存储于向量数据库中,在实际推理时根据问题的特征向量与向量数据库中向量的相似度召回相关知识,结合问题和召回知识构建模型的最终输入,即prompt。最后借助llm的上下文学习能力,让模型结合输入的更实效和专业的知识进行推理,完成答案输出。这个过程中,因为用户表达较口语化,直接采用用户问题,增加了llm识别用户意图的难度,且不利于检索。

5、此外,检索时的相似度阈值选取亦是一大难题,一般而言,相似度阈值过高时最终保留的文档数较少,会导致某些有效知识点无法命中,反之,会引入很多无效知识点、不相关的内容与噪声会影响上下文学习效果,另外因llm的最大输入长度限制,通常会截断处理,容易遗漏有效的知识点。


技术实现思路

1、基于此,有必要针对现有医疗大模型存在事实知识偏差的问题,提供一种基于知识校准和检索增强的医疗辅助问答方法及系统。

2、为实现上述目的,本专利技术采用了以下技术方案:

3、一种基于知识校准和检索增强的医疗辅助问答方法,包括以下步骤:

4、构建医疗知识数据集,经数据清洗后输入至基座模型进行训练微调;

5、依据对比知识评价方式评估出微调后的基座模型中未掌握事实正确知识并校准,进而得到大语言模型;

6、结合医学专业知识和医院的信息创建知识库,对知识库创建关键词,且将知识库内的文档切分成片段,对每个文档片段进行摘要提取,进而将提取出的关键信息作为节点,以自下而上的方式对知识库内的每个文档创建树状索引;

7、通过微调后的中文语义向量模型对知识库中每个文档片段和节点进行特征提取,进而构建向量数据库;

8、获取用户问题并进行行业关键词提取,整合用户问题和行业关键词与向量数据库进行相似度匹配,并结合知识图谱召回相关联知识数据;

9、整合用户问题及其行业关键词、相关联知识数据构建提示语模板,输入至大语言模型得到用户问题的答案。

10、进一步的,依据对比知识评价方式评估出微调后的基座模型中未掌握事实正确知识并校准的具体步骤如下:

11、s21.计算微调后的基座模型对事实知识掌握程度的指标

12、;其中,表示平滑因子, 表示模型对知识正确关系的预测概率, 表示模型对知识错误关系的预测概率,表示不同的期望;

13、s22.计算微调后的基座模型的自适应权值

14、;其中,表示预设阈值;

15、s23.将指标与预设阈值进行数值对比,根据对比结果作出如下决策:

16、(1)若≤;则判定微调后的基座模型未掌握该事实正确知识,将额外知识注入微调后的基座模型,微调后的基座模型依据自适应权值w进行校准;

17、(2)若>;则判定微调后的基座模型已掌握该事实正确知识。

18、进一步的,获取用户问题并进行行业关键词提取,整合用户问题和行业关键词与所述向量数据库进行相似度匹配,并结合知识图谱召回相关联知识数据的具体步骤如下:

19、s31.对用户问题进行关键词提取,将提取出的行业关键词与所述知识库的关键词进行高级模糊匹配,识别用户意图,明确用户问题所涉及的知识领域;

20、s32. 遍历每个行业关键词,取行业关键词的特征向量和用户问题的特征向量进行加权拼接得到搜索的特征向量;

21、s33.根据用户问题所涉及的知识领域确定搜索所述向量数据库的范围,并将搜索的特征向量与所述向量数据库所确定范围的向量数据进行相似度计算,通过multi-weighted方式对计算出的相似度按树状索引的节点位置进行加权融合,并根据加权融合的相似度召回的文档片段或节点作为所述向量数据库的召回结果;

22、s34.通过知识图谱进行检索增强,与所述向量数据库的召回结果连接语句,进而得到所述用户问题对应的相关联知识数据。

23、进一步的,步骤s33中multi-weighted方式的具体步骤如下:

24、获取搜索的特征向量与所述向量数据库所确定范围的向量相似度计算结果;

25、以文档片段为基线,获取与搜索的特征向量进行相似度计算的向量数据所在的节点层,进而对该向量数据的上层节点的相似度进行加权计算,得到加权相似度;其中,i、j表示节点层级,表示第j层级的相似度;

26、筛选出加权相似度大于设定阈值的文档片段或节点,按照相似度由大到小的顺序召回额定数量的文档片段或节点作为所述向量数据库的召回结果。

27、进一步的,中文语义向量模型的微调具体步骤如下:

28、s51.根据查询的问题、相关的正例文档及负例文档计算目标函数对中文语义本文档来自技高网...

【技术保护点】

1.一种基于知识校准和检索增强的医疗辅助问答方法,其特征在于,其包括以下步骤:

2.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,依据对比知识评价方式评估出微调后的基座模型中未掌握事实正确知识并校准的具体步骤如下:

3.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,获取用户问题并提取其对应的行业关键词,整合用户问题和行业关键词与所述向量数据库进行相似度匹配,并结合知识图谱召回相关联知识数据的具体步骤如下:

4.根据权利要求3所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,步骤S33中Multi-Weighted方式的具体步骤如下:

5.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,中文语义向量模型的微调具体步骤如下:

6.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,整合所述用户问题及其行业关键词、相关联知识数据构建提示语模板,输入至所述大语言模型得到所述用户问题的答案的具体步骤如下:

7.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,对所述知识库内的文档切分成片段时,在保持完整的句子或段落的情况下,不超过300词;对每个文档片段进行摘要提取时,提取的摘要不超过80词。

8.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,所述医疗数据集包括真实患者咨询数据集、开源医学知识库、医学问答数据集、安全相关数据集以及询问链格式的对话数据集。

9.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,所述知识库包括药品知识库、疾病知识库、临床实验知识库、医学文献知识库、医学影像知识库、流行病学知识库、医学词典和术语知识库,以及医院的历史诊治知识库、本院医生和科室信息知识库。

10.一种基于知识校准和检索增强的医疗辅助问答系统,其采用于如权利要求1-9中任意一项所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,其包括:

...

【技术特征摘要】

1.一种基于知识校准和检索增强的医疗辅助问答方法,其特征在于,其包括以下步骤:

2.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,依据对比知识评价方式评估出微调后的基座模型中未掌握事实正确知识并校准的具体步骤如下:

3.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,获取用户问题并提取其对应的行业关键词,整合用户问题和行业关键词与所述向量数据库进行相似度匹配,并结合知识图谱召回相关联知识数据的具体步骤如下:

4.根据权利要求3所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,步骤s33中multi-weighted方式的具体步骤如下:

5.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,中文语义向量模型的微调具体步骤如下:

6.根据权利要求1所述的基于知识校准和检索增强的医疗辅助问答方法,其特征在于,整合所述用户问题及其行业关键词、相关联知识数据构建提示语模板,输...

【专利技术属性】
技术研发人员:谢云胡勇超李强龙利民
申请(专利权)人:图灵人工智能研究院南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1