System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 训练识别模型的方法和装置制造方法及图纸_技高网

训练识别模型的方法和装置制造方法及图纸

技术编号:44614662 阅读:9 留言:0更新日期:2025-03-14 13:07
本申请涉及人工智能领域,特别涉及训练识别模型的方法、装置、介质、电子设备、计算机程序产品。本申请可以从研究方案中自动识别出DVP规则,效率高,不易出错,识别标准一致,并且可以随着研究方案的调整而动态调整。其次,本申请利用动态上下文共享机制,使得文本分类任务和关系抽取任务能够在解码阶段自适应共享上下文信息,解决了传统多任务模型中上下文信息固定、难以自适应的问题。此外,本申请通过动态调节共享权重,实现了任务间的实时信息融合,使得模型在复杂任务(诸如识别DVP规则)中表现更优。

【技术实现步骤摘要】

本申请涉及人工智能领域,特别涉及训练识别模型的方法、装置、介质、电子设备、计算机程序产品。


技术介绍

1、在临床试验中,数据验证计划(data verification plan,dvp)的生成是确保数据质量和符合研究要求的核心环节。根据研究方案(protocol)来设计病例报告表(casereport form,crf),并且生成相应的dvp规则,能够帮助试验数据保持一致性和完整性。然而,现有的临床数据管理工具,诸如sas、medidata rave等,虽然能够提供数据验证功能,但是其主要侧重于验证过程,并不具备从研究方案中自动识别dvp规则的能力。

2、当前的dvp规则识别流程主要依赖数据管理人员手动梳理研究方案中的各项要求,此类操作过程存在以下明显的问题:

3、效率低下。临床试验涉及大量数据字段和复杂的逻辑关系,手动梳理每个目标变量、条件变量并且识别出相应的dvp规则是一项极其繁重的任务。特别是在多中心试验或大规模临床研究中,手动操作的时间成本极高,导致识别dvp规则的效率低下,拖延试验进程。

4、易出错。在手动识别dvp规则时,数据管理人员需要处理大量目标变量和条件变量,并且做出复杂的逻辑判断,这极大增加了人为错误的风险。dvp规则的识别遗漏或识别错误都有可能导致关键数据的验证不准确,进而影响试验结果的可靠性与科学性。

5、缺乏一致性。由于不同数据管理人员的理解和操作习惯不同,可能导致识别出的dvp规则不一致。在多中心研究中,多个研究中心参与试验时,如果dvp规则识别过程缺乏标准化,容易导致各中心识别出的规则存在差异,影响最终数据的对比和整合。

6、动态调整困难。随着研究方案的调整或试验过程中数据需求的变化,手动更新和维护dvp规则非常困难且易忽视某些细节,从而可能导致dvp规则识别的不完整或遗漏。


技术实现思路

1、本申请实施例提供了训练识别模型的方法、装置、介质、电子设备、计算机程序产品。

2、第一方面,本申请实施例提供了一种训练识别模型的方法,用于电子设备,所述方法包括:

3、获取步骤,获取训练数据集,所述训练数据集包括多个训练文本;

4、构建步骤,构建具有文本分类路径和关系抽取路径的所述识别模型;以及

5、训练步骤,针对所述多个训练文本中的每个训练文本,包括:

6、编码步骤,将所述训练文本编码为初始特征表示,

7、提取步骤,将所述初始特征表示分别输入所述文本分类路径和所述关系抽取路径,以提取与文本分类相关联的第一特征表示和与关系抽取相关联的第二特征表示,

8、融合步骤,将所述第一特征表示与所述第二特征表示进行融合,以获得共享特征表示,

9、输出步骤,将所述共享特征表示继续分别通过所述文本分类路径和所述关系抽取路径,以输出文本分类结果和关系抽取结果,以及

10、调整步骤,基于联合损失来调整所述识别模型;

11、其中,训练后的所述识别模型用于识别医学文本。

12、第二方面,本申请实施例提供了一种训练识别模型的装置,所述装置包括:

13、获取单元,获取训练数据集,所述训练数据集包括多个训练文本;

14、构建单元,构建具有文本分类路径和关系抽取路径的所述识别模型;以及

15、训练单元,针对所述多个训练文本中的每个训练文本,包括:

16、编码单元,将所述训练文本编码为初始特征表示,

17、提取单元,将所述初始特征表示分别输入所述文本分类路径和所述关系抽取路径,以提取与文本分类相关联的第一特征表示和与关系抽取相关联的第二特征表示,

18、融合单元,将所述第一特征表示与所述第二特征表示进行融合,以获得共享特征表示,

19、输出单元,将所述共享特征表示继续分别通过所述文本分类路径和所述关系抽取路径,以输出文本分类结果和关系抽取结果,以及

20、调整单元,基于联合损失来调整所述识别模型;

21、其中,训练后的所述识别模型用于识别医学文本。

22、第三方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令被计算机执行时,使得所述计算机执行根据上述第一方面所述的训练识别模型的方法。

23、第四方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及一个或多个存储器;所述一个或多个存储器上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备执行根据上述第一方面所述的训练识别模型的方法。

24、第五方面,本申请实施例提供了一种计算机程序产品,包括计算机可执行指令,所述指令被处理器执行以实施根据上述第一方面所述的训练识别模型的方法。

25、本申请可以从研究方案中自动识别出dvp规则,效率高,不易出错,识别标准一致,并且可以随着研究方案的调整而动态调整。其次,本申请利用动态上下文共享机制,使得文本分类任务和关系抽取任务能够在解码阶段自适应共享上下文信息,解决了传统多任务模型中上下文信息固定、难以自适应的问题。此外,本申请通过动态调节共享权重,实现了任务间的实时信息融合,使得模型在复杂任务(诸如识别dvp规则)中表现更优。

本文档来自技高网...

【技术保护点】

1.一种训练识别模型的方法,用于电子设备,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据不同的训练文本和训练阶段,动态地调整所述第一权重矩阵和所述第二权重矩阵。

3.根据权利要求1至2中任一项所述的方法,其特征在于,根据以下函数来确定所述联合损失:

4.根据权利要求3所述的方法,其特征在于,根据以下函数来调整第一调整参数:

5.根据权利要求3所述的方法,其特征在于,根据以下函数来调整第二调整参数:

6.根据权利要求1所述的方法,其特征在于,所述医学文本包括用于临床试验的研究方案,并且训练后的所述识别模型用于从所述研究方案中识别数据验证计划规则。

7.一种训练识别模型的装置,其特征在于,所述装置包括:

8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有指令,当所述指令被计算机执行时,使得所述计算机执行根据权利要求1所述的训练识别模型的方法。

9.一种电子设备,其特征在于,包括一个或多个处理器以及一个或多个存储器;所述一个或多个存储器上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备执行根据权利要求1所述的训练识别模型的方法。

10.一种计算机程序产品,其特征在于,包括计算机可执行指令,所述指令被处理器执行以实施根据权利要求1所述的训练识别模型的方法。

...

【技术特征摘要】

1.一种训练识别模型的方法,用于电子设备,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据不同的训练文本和训练阶段,动态地调整所述第一权重矩阵和所述第二权重矩阵。

3.根据权利要求1至2中任一项所述的方法,其特征在于,根据以下函数来确定所述联合损失:

4.根据权利要求3所述的方法,其特征在于,根据以下函数来调整第一调整参数:

5.根据权利要求3所述的方法,其特征在于,根据以下函数来调整第二调整参数:

6.根据权利要求1所述的方法,其特征在于,所述医学文本包括用于临床试验的研究方案,并且训练后的所述识别模型用于从所述研究方案中识别数据验...

【专利技术属性】
技术研发人员:田永谦许晨超
申请(专利权)人:上海艾莎医学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1