System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的对照试验识别方法、装置及存储介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>四川大学专利>正文

基于大语言模型的对照试验识别方法、装置及存储介质制造方法及图纸

技术编号:44735603 阅读:1 留言:0更新日期:2025-03-21 18:01
本发明专利技术涉及基于大语言模型的对照试验识别方法、装置及存储介质,应用于医学信息技术领域,包括:通过对获取的医学文献数据进行分词处理后与RCT相关的提示词进行结合,得到指令数据集;设置大语言模型框架以及对应的损失函数,通过指令数据集对模型框架进行迭代训练,将待分类的医学文献数据输入到训练好的RCT识别大语言模型中,并按照提示词约定的格式输出RCT识别结果;本申请的方案通过提示词与训练数据进行结合,无需对训练数据进行标注,解决了现有的机器学习模型在不同医学领域和不同研究问题数据集上的泛化能力存在较大的区别,极度依赖大量标注的数据集的问题。

【技术实现步骤摘要】

本专利技术涉及医学信息,具体涉及基于大语言模型的对照试验识别方法、装置及存储介质


技术介绍

1、系统综述(srs),尤其是基于随机对照试验(rcts)的,对临床决策至关重要,因为它们提供了高质量的证据支持,尽管如此,大多数系统综述都需要对大量文献进行筛选,这一过程通常由人类专家来完成,既耗时又劳动密集。据研究统计,完成一个系统综述平均需要大约67.3周的时间,然而在从数据库中检索rcts时,传统的检索方法效率并不高,因为通常只有大约7%的检索结果真正与rcts相关,因此,在进行系统综述时,准确识别出这些rcts是至关重要的一步。

2、当前业界自动识别rcts的方法主要为基于机器学习算法的rcts自动识别方法,为了提高rct文献识别的效率,研究人员已经开发了机器学习(ml)模型来识别rcts,这些模型的目的是加速系统综述的工作流程,但它们在实际应用中的普及程度有限,主要缺点是机器学习模型在不同医学领域和不同研究问题数据集上的泛化能力存在较大的区别,极度依赖大量标注的数据集。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供基于大语言模型的对照试验识别方法、装置及存储介质,以解决现有的机器学习模型在不同医学领域和不同研究问题数据集上的泛化能力存在较大的区别,极度依赖大量标注的数据集的问题。

2、根据本专利技术实施例的第一方面,提供基于大语言模型的对照试验识别方法,所述方法包括:

3、获取多个医学文献的标题与摘要;

4、对所述多个医学文献的标题与摘要进行分词处理;

5、设置用于大语言模型训练的与rct相关的提示词,将所述提示词与分词处理后的多个医学文献的标题与摘要进行结合,得到指令数据集;

6、构建大语言模型框架,设置用于所述大语言模型框架的损失函数;

7、通过所述指令数据集对所述大语言模型框架进行迭代训练,直到满足预设的停止条件,得到训练好的rct识别大语言模型;

8、获取待分类的医学文献数据,将待分类的医学文献数据进行分词处理后输入到所述训练好的rct识别大语言模型中,所述训练好的rct识别大语言模型按照所述提示词约定的格式输出rct识别结果。

9、优选地,

10、所述对所述多个医学文献的标题与摘要进行分词处理前还包括:

11、对所述多个医学文献的标题与摘要进行数据清洗;所述数据清洗用于去除医学文献的标题以及摘要中的特殊字符以及非文字内容;

12、所述对所述多个医学文献的标题与摘要进行分词处理后还包括:停用词移除;

13、所述停用词移除用于移除医学文献的标题以及摘要中的停用词。

14、优选地,

15、所述损失函数采用交叉熵损失函数,所述交叉熵损失函数的表达式为:

16、

17、式中,l(y,y*)表示损失值;y表示真实标签;y*表示每个类别的预测概率;n表示样本总数;yi以及yi*分别表示第i个样本的真实标签和预测概率。

18、优选地,

19、在所述大语言模型框架中设置sigmoid函数,通过所述sigmoid函数将模型输出的预测概率映射到(0,1)区间。

20、优选地,还包括:

21、设置rct识别器,在所述rct识别器中设置分类阈值;

22、将所述训练好的rct识别大语言模型输出的所述待分类的医学文献数据的预测概率输入到所述rct识别器中;

23、所述rct识别器将预测概率大于或等于所述分类阈值的输出为“是rct文献”,将预测概率小于所述分类阈值的输出为“非rct文献”。

24、优选地,

25、所述对所述多个医学文献的标题与摘要进行分词处理包括:

26、通过ikanalyzer或hanlp分词工具将多个医学文献的标题与摘要进行分词处理;

27、根据预设的词汇表将每个分词转换为唯一的索引,通过预设的模型输入数据长度将一个或多个分词对应的索引进行组合,得到输入序列;

28、以‘[cls]’标识开头表示每个输入序列的起始,以‘[sep]’标识结尾表示每个输入序列的结尾。

29、根据本专利技术实施例的第二方面,提供基于大语言模型的对照试验识别装置,其特征在于,所述装置包括:

30、数据获取模块:用于获取多个医学文献的标题与摘要;

31、分词处理模块:用于对所述多个医学文献的标题与摘要进行分词处理;

32、训练数据获取模块:用于设置用于大语言模型训练的与rct相关的提示词,将所述提示词与分词处理后的多个医学文献的标题与摘要进行结合,得到指令数据集;

33、模型框架设置模块:用于构建大语言模型框架,设置用于所述大语言模型框架的损失函数;

34、迭代训练模块:用于通过所述指令数据集对所述大语言模型框架进行迭代训练,直到满足预设的停止条件,得到训练好的rct识别大语言模型;

35、分类识别模块:用于获取待分类的医学文献数据,将待分类的医学文献数据进行分词处理后输入到所述训练好的rct识别大语言模型中,所述训练好的rct识别大语言模型按照所述提示词约定的格式输出rct识别结果。

36、根据本专利技术实施例的第三方面,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被主控器执行时,实现上述方法中的各个步骤。

37、本专利技术的实施例提供的技术方案可以包括以下有益效果:

38、本申请通过对获取的医学文献数据进行分词处理后与rct相关的提示词进行结合,得到指令数据集;设置大语言模型框架以及对应的损失函数,通过指令数据集对模型框架进行迭代训练,将待分类的医学文献数据输入到训练好的rct识别大语言模型中,并按照提示词约定的格式输出rct识别结果;本申请的方案通过提示词与训练数据进行结合,无需对训练数据进行标注,解决了现有的机器学习模型在不同医学领域和不同研究问题数据集上的泛化能力存在较大的区别,极度依赖大量标注的数据集的问题。

39、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。

本文档来自技高网...

【技术保护点】

1.基于大语言模型的对照试验识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求4所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,

7.基于大语言模型的对照试验识别装置,其特征在于,所述装置包括:

8.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被主控器执行时,实现如权利要求1-6任一项所述的基于大语言模型的对照试验识别方法中的各个步骤。

【技术特征摘要】

1.基于大语言模型的对照试验识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求4所述的方法,其特征在于,还包括:

<...

【专利技术属性】
技术研发人员:孙鑫李玲李好秦璇姚明宏罗小超刘佳利王雨宁马玉刘艳梅梅凡向浒侬邓可邹康
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1