System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识图谱的大模型可靠医学知识注入方法、装置制造方法及图纸_技高网

一种基于知识图谱的大模型可靠医学知识注入方法、装置制造方法及图纸

技术编号:41733815 阅读:2 留言:0更新日期:2024-06-19 12:54
本申请公开了一种基于知识图谱的大模型可靠医学知识注入方法、装置,所述方法包括步骤:S1、基于医学知识库和梯度难度数据生成策略引导产生初步的医学知识问答数据;S2、通过多维度数据筛选方法,从可靠性、多样性、必要性三个维度对初步的医学知识问答数据进行筛选过滤,得到模型知识注入的最终数据;S3、对所述最终数据进行自蒸馏数据处理得到训练数据,减少与原始训练数据分布差异,利用所述训练数据对目标大语言模型进行自蒸馏训练实现对目标大语言模型的微调。本申请在提高目标大语言模型专业领域知识注入可靠性的同时,还可缓解目标大语言模型微调后可能的灾难性遗忘,提高目标大语言模型通用领域适应能力。

【技术实现步骤摘要】

本申请涉及人工智能,具体涉及一种基于知识图谱的大模型可靠医学知识注入方法、装置


技术介绍

1、大型语言模型(large language model,llm)在通用领域的各种自然语言处理任务中取得了显著的成功。通过大语言模型的生成能力,为特定领域问题的处理与决策提供建议,已经成为人工智能辅助决策的重要发展方向。由于有限的专业领域知识,llm有时会产生关于事实的幻觉反应,导致出现错误提示与建议,这些缺点使得llm在医学环境中使用存在潜在风险。为了应对这一挑战,通常采用大量搜集医学领域数据,通过模型微调向llm注入专业知识。但是大量低知识密度的医学数据微调容易出现以下问题:由于与原始预训练数据的分布差异,可能会导致模型出现灾难性遗忘,使得通用领域能力大幅减弱;同时低知识密度文本注入的知识也可难以在模型进行内容生成时进行可靠回复。


技术实现思路

1、本申请一方面提供了一种基于知识图谱的大模型可靠医学知识注入方法,以解决现有的知识注入方法可能会导致模型出现灾难性遗忘,使得通用领域能力大幅减弱,同时低知识密度文本注入的知识也可难以在模型进行内容生成时进行可靠回复的技术问题。

2、本申请采用的技术方案如下:

3、一种基于知识图谱的大模型可靠医学知识注入方法,包括步骤:

4、s1、基于医学知识库和梯度难度数据生成策略引导产生初步的医学知识问答数据;

5、s2、通过多维度数据筛选方法,从可靠性、多样性、必要性三个维度对初步的医学知识问答数据进行筛选过滤,得到模型知识注入的最终数据;

6、s3、对所述最终数据进行自蒸馏数据处理得到训练数据,减少与原始训练数据分布差异,利用所述训练数据对目标大语言模型进行自蒸馏训练实现对目标大语言模型的微调;

7、所述步骤s1具体包括步骤:

8、s11、给定医学知识库 k i =(  e i, attr i, c i),其中 k i表示知识库中一个医疗实例, e i表示医疗实体, attr i表示医疗实体的属性知识名称, c i表示属性知识内容;

9、s12、给出一个医疗实例所有知识属性,使用已有的大语言模型或者api,要求大语言模型或者api只能随机针对医疗实例中1个属性知识,生成一组问答数据,并将所述问答数据难度标记为一阶难度;

10、s13、从一个医疗实例中选择2个或以上的属性知识记为{ attr mask , c mask},未被选择的医疗实例记为{ e i  ,attr no_mask , c no_mask},使用已有的大语言模型或者api,设计任务模板,要求已有的大语言模型将{ e i  ,attr no_mask , c no_mask}知识注入题干,针对 attr mask进行提问,并将 c mask注入到回答的内容中,得到一组问答数据作为难度提升的二阶难度样本;

11、s14、对医学知识库中所有医疗实例执行上述步骤s12和s13,由此得到第一阶段的粗糙知识注入样本数据集 dataset rough,作为初步的医学知识问答数据。

12、进一步地,所述医学知识库包括cmekg、omaha,所述已有的大语言模型或者api包括openai的chatgpt api。

13、进一步地,所述步骤s2具体包括步骤:

14、s21、数据可靠性选择:使用打分模型对问答对进行可靠性打分,将 dataset rough中数据的提问与回答进行拼接,输入质量打分模型,当分数大于设定阈值q时,保留作为合格数据,否则排除该数据,得到第一阶段筛选结果 dataset filter1;

15、s22、数据多样性选择:针对第一阶段筛选结果 dataset filter1,首先使用预训练语言模型生成文本向量,进一步使用k-center-greedy算法进行数据多样性筛选,获取数据集中具有代表性的种子知识数据 dataset seed;

16、s23、数据必要性选择:首先使用 dataset seed对目标大语言模型进行初始训练,并使用 dataset filter1做为测评数据,选择其中问题让初始训练后的目标大语言模型进行回答,并将问题和初始训练后的目标大语言模型的回答进行拼接,输入到所述打分模型进行质量分析,若打分超过设定阈值q,则从 dataset filter1中剔除,得到新的筛选结果 dataset filter2;

17、s24 数据合并:将种子知识数据 dataset seed和新的筛选结果 dataset filter2合并,作为模型知识注入的最终数据 dataset sft。

18、进一步地,所述步骤s2具体包括步骤:

19、s21、数据可靠性选择:使用打分模本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的大模型可靠医学知识注入方法,其特征在于,包括步骤:

2. 根据权利要求1所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述医学知识库包括CMeKG、Omaha,所述已有的大语言模型或者API包括OpenAI的ChatGPT API。

3.根据权利要求1所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述步骤S2具体包括步骤:

4.根据权利要求1所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述步骤S2具体包括步骤:

5.根据权利要求3或4所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述打分模型架构包括reward-Bert;所述预训练语言模型包括Bert;对目标大语言模型进行初始训练时,所述初始训练方式包括Lora训练方式、全参数训练方式。

6.根据权利要求3或4所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述步骤S3具体包括步骤:

7.一种基于知识图谱的大模型可靠医学知识注入装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,

9.一种存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至6中任一项所述基于知识图谱的大模型可靠医学知识注入方法的步骤。

...

【技术特征摘要】

1.一种基于知识图谱的大模型可靠医学知识注入方法,其特征在于,包括步骤:

2. 根据权利要求1所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述医学知识库包括cmekg、omaha,所述已有的大语言模型或者api包括openai的chatgpt api。

3.根据权利要求1所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述步骤s2具体包括步骤:

4.根据权利要求1所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述步骤s2具体包括步骤:

5.根据权利要求3或4所述的基于知识图谱的大模型可靠医学知识注入方法,其特征在于,所述打分模型架构包括re...

【专利技术属性】
技术研发人员:王阳王晓龙
申请(专利权)人:智慧眼科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1