System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本处理,尤其涉及一种医学文本实体对的抽取方法及装置。
技术介绍
1、实体关系抽取任务一般旨在抽取文本中的实体及实体间的语义关系。以医学文本为例,可以抽取医学文本中症状及部位实体以及实体间的直接关系,比如医学文本“目前诊断:t11椎体压缩性骨折;胸椎侧弯。”可以抽取出部位“胸椎”和症状“侧弯”之间的症状表现部位关系。
2、在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:在进行医学文本的抽取时,关系抽取的数据标注成本较高,大量高质量的标注较难获得,导致医学文本实体对的抽取准确率低。
技术实现思路
1、本专利技术提供了一种医学文本实体对的抽取方法及装置,以解决医学文本中实体对抽取准确率低的技术问题。
2、根据本专利技术的一方面,提供了一种医学文本实体对的抽取方法,包括:
3、获取待抽取医学文本;
4、将所述待抽取医学文本输入中预先训练的实体对抽取模型中,获得所述实体对抽取模型的输出结果,其中,所述实体对抽取模型包括实体识别模块、实体对匹配模块和关系分类模块,所述实体对抽取模型的模型训练样本包括样本医学文本和所述样本医学文本对应的样本标记信息,所述样本标记信息包括正样本标记信息和负样本标记信息,所述负样本标记信息用于筛选模块之间的传输数据;
5、基于所述实体对抽取模型的输出结果确定所述待抽取医学文本的实体对抽取结果。
6、根据本专利技术的另一方面,提供了一种医学文本实体对的抽取装置,包括:
7、医学文本获取模块,用于获取待抽取医学文本;
8、实体对模型抽取模块,用于将所述待抽取医学文本输入中预先训练的实体对抽取模型中,获得所述实体对抽取模型的输出结果,其中,所述实体对抽取模型包括实体识别模块、实体对匹配模块和关系分类模块,所述实体对抽取模型的模型训练样本包括样本医学文本和所述样本医学文本对应的样本标记信息,所述样本标记信息包括正样本标记信息和负样本标记信息,所述负样本标记信息用于筛选模块之间的传输数据;
9、实体对抽取结果确定模块,用于基于所述实体对抽取模型的输出结果确定所述待抽取医学文本的实体对抽取结果。
10、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的医学文本实体对的抽取方法。
14、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的医学文本实体对的抽取方法。
15、本专利技术实施例的技术方案,通过获取待抽取医学文本;将所述待抽取医学文本输入中预先训练的实体对抽取模型中,获得所述实体对抽取模型的输出结果,其中,所述实体对抽取模型包括实体识别模块、实体对匹配模块和关系分类模块,所述实体对抽取模型的模型训练样本包括样本医学文本和所述样本医学文本对应的样本标记信息,所述样本标记信息包括正样本标记信息和负样本标记信息,所述负样本标记信息用于筛选模块之间的传输数据;基于所述实体对抽取模型的输出结果确定所述待抽取医学文本的实体对抽取结果,通过基于负样本标记信息筛选实体对抽取模型中模块之间的数据传输,解决了在进行实体对抽取时传输错误信息的技术问题,进而提高了实体对抽取的准确率。
16、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种医学文本实体对的抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述待抽取医学文本输入中预先训练的实体对抽取模型中,获得所述实体对抽取模型的输出结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述实体对输入至所述关系分类模块中,获得所述关系分类模块输出的关系分类结果,包括:
4.根据权利要求2所述的方法,其特征在于,所述实体识别模块包括边界探测层和实体类型分类层,所述将所述待抽取医学文本输入至所述实体识别模块中,获得所述实体识别模块输出的实体识别信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述待抽取医学文本输入至所述边界探测层中,获得所述边界探测层输出的实体片段,将所述实体片段输入至所述实体类型分类层中,获得所述实体类型分类层输出的实体片段的类别,包括:
6.根据权利要求3所述的方法,其特征在于,所述将所述实体识别信息输入至所述实体对匹配模块中,包括:
7.根据权利要求2所述的方法,其特征在于,所述将所述实体识别信息输入至所述实体对匹配模块
8.根据权利要求2所述的方法,其特征在于,所述基于所述关系分类结果确定所述实体对抽取模型的输出结果,包括:
9.根据权利要求1所述的方法,其特征在于,所述关系分类模块基于预训练掩码语言模型前端构建。
10.一种医学文本实体对的抽取装置,其特征在于,包括:
...【技术特征摘要】
1.一种医学文本实体对的抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述待抽取医学文本输入中预先训练的实体对抽取模型中,获得所述实体对抽取模型的输出结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述实体对输入至所述关系分类模块中,获得所述关系分类模块输出的关系分类结果,包括:
4.根据权利要求2所述的方法,其特征在于,所述实体识别模块包括边界探测层和实体类型分类层,所述将所述待抽取医学文本输入至所述实体识别模块中,获得所述实体识别模块输出的实体识别信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述待抽取医学文本输入至所述边界探测层中,获得所述边界...
【专利技术属性】
技术研发人员:秦晓宏,华宗楠,罗建辉,
申请(专利权)人:上海柯林布瑞信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。