System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的中药问答方法、装置、设备及介质制造方法及图纸_技高网

一种基于大语言模型的中药问答方法、装置、设备及介质制造方法及图纸

技术编号:43629121 阅读:5 留言:0更新日期:2024-12-11 15:08
本申请公开了一种基于大语言模型的中药问答方法、装置、设备及介质,涉及医药问答领域。该方法从书籍文献、网络平台及中药数据集中获取多源中药知识数据,构建了适用不同场景的多元化的指令数据,克服了通过ChatGPT API收集,可能会引入非专业或不准确的信息,影响模型的性能和可靠性的缺陷,基于Baichuan2‑7B‑Chat模型进行训练,得到用于中药问答的模型,实现了从PT到SFT的流程,根据不同的适用场景设置不同的验证指标,对模型进行验证,克服了单一的或主观的评价指标,限制模型评价准确率的缺陷,本申请提高了中药问答的准确性和可靠性。

【技术实现步骤摘要】

本申请涉及医药问答领域,特别是涉及一种基于大语言模型的中药问答方法、装置、设备及介质


技术介绍

1、大语言模型(large language models,llms)是一种采用大量文本数据进行训练的深度学习模型,旨在理解和生成自然语言文本。这些模型通常基于transformer架构,能够捕捉语言的复杂性和多样性,在生物医药领域的应用日益广泛,特别是在中药领域,这些模型通过理解和生成自然语言文本,为中药的研究、应用和传播带来了诸多创新。目前,最常规的应用是利用大模型来分析海量的中药文献、古籍、现代研究论文等文本数据,从中提取中药的名称、性味归经、功效主治、用法用量、配伍禁忌等关键信息,构建中药知识库。近期,一些研究人员开发了名为cmlm-zhongjing的大模型用于中医药知识问答和辅助诊疗。该大模型基于中医妇科方药表格数据,通过设置特定的prompt模板来生成15个场景的指令数据,最后通过大模型微调得到。然而,训练数据通常依赖于chatgpt api(聊天应用程序学习平台)收集来构建对齐数据集。依赖chatgpt api可能会引入非专业或不准确的信息,影响模型的性能和可靠性。此外,中药大模型现有的评价指标过于单一,大部分以主观评价作为验证方式,严重限制了中药大模型的评价准确率。


技术实现思路

1、本申请的目的是提供一种基于大语言模型的中药问答方法、装置、设备及介质,可提高中药问答的准确性和可靠性。

2、为实现上述目的,本申请提供了如下方案:

3、第一方面,本申请提供了一种基于大语言模型的中药问答方法,所述基于大语言模型的中药问答方法包括:

4、构建中药知识数据库;所述中药知识数据库包括从书籍文献、网络平台及中药数据集中获取的多源中药知识数据;

5、根据所述中药知识数据库生成无监督数据和指令数据;所述指令数据的适用场景包括中药知识库、选择题、阅读理解、实体提取、医案诊断及中药或方剂推荐;

6、构建baichuan2-7b-chat模型;所述baichuan2-7b-chat模型通过对transformer解码器进行改进获得,改进方式包括:将transformer解码器中的layernorm层替换为rmsnorm层,将transformer解码器中的绝对位置编码层替换为旋转位置编码层,将transformer解码器中的relu激活函数替换为swiglu激活函数;

7、利用无监督数据对baichuan2-7b-chat模型进行无监督的预训练,获得预训练后的baichuan2-7b-chat模型;

8、利用无监督数据和指令数据对预训练后的baichuan2-7b-chat模型进行有监督的训练,获得训练好的baichuan2-7b-chat模型;

9、针对不同的适用场景设置验证指标,采用验证指标对训练好的baichuan2-7b-chat模型进行验证;

10、利用验证通过的baichuan2-7b-chat模型进行中药问答。

11、第二方面,本申请提供一种基于大语言模型的中药问答装置,所述中药问答装置包括后端和前端;

12、所述前端用于与客户交互;

13、所述后端用于采用上述的基于大语言模型的中药问答方法进行问答。

14、第三方面,一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述的基于大语言模型的中药问答方法。

15、第四方面,一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于大语言模型的中药问答方法。

16、第五方面,一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的基于大语言模型的中药问答方法。

17、根据本申请提供的具体实施例,本申请公开了以下技术效果:

18、本申请提供了一种基于大语言模型的中药问答方法、装置、设备及介质。本申请从书籍文献、网络平台及中药数据集中获取多源中药知识数据,构建了适用不同场景的多元化的指令数据,克服了直接通过chatgpt api(大模型)收集可能引入非专业或不准确的信息,影响模型的性能和可靠性的缺陷,基于baichuan2-7b-chat(百川7b参数的基模型)进行训练,得到用于中药问答的模型,实现了从预训练到指令微调的流程,根据不同的适用场景设置不同的验证指标,对模型进行验证,克服了单一的或主观的评价指标限制模型的评价准确率的缺陷,本申请提高了中药问答的准确性和可靠性。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的中药问答方法,其特征在于,所述基于大语言模型的中药问答方法包括:

2.根据权利要求1所述的基于大语言模型的中药问答方法,其特征在于,利用无监督数据对Baichuan2-7B-Chat模型进行无监督的预训练的过程中及利用无监督数据和指令数据对预训练后的Baichuan2-7B-Chat模型进行有监督的训练的过程中使用的损失函数为:

3.根据权利要求1所述的基于大语言模型的中药问答方法,其特征在于,利用无监督数据对Baichuan2-7B-Chat模型进行无监督的预训练的过程及利用无监督数据和指令数据对预训练后的Baichuan2-7B-Chat模型进行有监督的训练的过程均采用基于Deepspeed的分布式训练方式。

4.根据权利要求1所述的基于大语言模型的中药问答方法,其特征在于,在选择题适用场景中,所述验证指标为选择答案的准确率;

5.根据权利要求4所述的基于大语言模型的中药问答方法,其特征在于,选择答案的准确率的计算公式为:

6.根据权利要求4所述的基于大语言模型的中药问答方法,其特征在于,双语评估指标的计算公式为:

7.根据权利要求4所述的基于大语言模型的中药问答方法,其特征在于,

8.一种基于大语言模型的中药问答装置,其特征在于,所述中药问答装置包括后端和前端;

9.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述的基于大语言模型的中药问答方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于大语言模型的中药问答方法。

...

【技术特征摘要】

1.一种基于大语言模型的中药问答方法,其特征在于,所述基于大语言模型的中药问答方法包括:

2.根据权利要求1所述的基于大语言模型的中药问答方法,其特征在于,利用无监督数据对baichuan2-7b-chat模型进行无监督的预训练的过程中及利用无监督数据和指令数据对预训练后的baichuan2-7b-chat模型进行有监督的训练的过程中使用的损失函数为:

3.根据权利要求1所述的基于大语言模型的中药问答方法,其特征在于,利用无监督数据对baichuan2-7b-chat模型进行无监督的预训练的过程及利用无监督数据和指令数据对预训练后的baichuan2-7b-chat模型进行有监督的训练的过程均采用基于deepspeed的分布式训练方式。

4.根据权利要求1所述的基于大语言模型的中药问答方法,其特征在于,在选择题适用场景中,所述验证指标为选...

【专利技术属性】
技术研发人员:范骁辉邵鑫戴亿郑张金露
申请(专利权)人:浙江大学长三角智慧绿洲创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1