基于数据增强的小样本康复医疗命名实体识别方法与装置制造方法及图纸

技术编号:37983334 阅读:7 留言:0更新日期:2023-06-30 09:58
本发明专利技术公开了一种基于数据增强的小样本康复医疗命名实体识别方法与装置,所述方法包括:获取初始的康复医疗病例数据并进行命名实体划分,对命名实体划分后的康复医疗病例数据进行BIOS标注;对命名实体划分后的康复医疗病例数据进行数据增强,得到具有新标签的康复医疗病例数据;包括:分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码;和/或,在同类型的命名实体类型之间对康复医疗病例数据中的命名实体进行随机替换;将初始的康复医疗病例数据和具有新标签的康复医疗病例数据输入至命名实体识别网络中,得到康复医疗命名实体识别结果。医疗命名实体识别结果。医疗命名实体识别结果。

【技术实现步骤摘要】
基于数据增强的小样本康复医疗命名实体识别方法与装置


[0001]本专利技术涉及数据增强、命名实体识别、BIOS标注等
,尤其涉及一种基于数据增强的小样本康复医疗命名实体识别方法与装置。

技术介绍

[0002]在医学日益发达的现代社会,仍然有许多疾病在严重威胁人类的生命安全,其中,脑卒中以发病率高、致残率高、死亡率高和复发率高的“四高”特点已成为我国第一位死亡原因,也是中国成年人残疾的首要原因。因此,针对脑卒中患者四肢运动功能的恢复是患者康复的一个重要环节。伴随着人工智能的快速发展,以深度学习方法辅助康复医学诊断、方案制定或辅助治疗过程的技术随之诞生。然而,深度模型的训练过程往往需要大量标定数据,而现实获取数据通常是结构化、半结构化、非结构化数据,在数据结构与数据质量上制约了深度模型的训练过程。结构化的数据一般是指可以用二维表来逻辑表达实现的数据;半结构化数据不符合二维表的形式,但包含相关标记;非结构化数据没有固定结构的数据,例如病例文本。
[0003]在实际应用中,结构化数据相较于其他两种,数量稀少,获取成本更高,在康复医学领域等专业领域上问题尤为严重。通过建立命名实体识别网络,自动化地从半结构化和无结构数据中抽取实体、关系及实体属性等结构化的信息,可以有效解决实际情况下结构化数据的数据量少且难以获取的问题。在上述过程中,实体抽取是关键技术之一。实体抽取又称为命名实体识别,对文本中的重要名词和专有名词进行定位和分类,这些重要名词和专有名词可以称之为命名实体,命名实体可以根据不同的下游任务进行人为设定。<br/>[0004]命名实体识别是许多下游任务的基础,通常情况下,命名实体识别的精度和效果决定不同下游任务的效果。命名实体识别的深度学习网络框架有很多种,然而,这些深度网络的训练过程存在明显的不足:a)在深度神经网络模型训练过程中,需要大量有效的医疗领域的标签数据拟合模型;b)在实际情况下,考虑到训练命名实体识别的神经网络对数据与算力的需求,难以从零开始训练一个命名实体识别网络。特别地,当在康复医疗等专业领域构建知识图谱时,由于专业的医疗标签数据难以获取或者获取代价高昂,难以训练通用的深度学习网络框架以辅助非结构化数据的命名实体提取任务。
[0005]因此,提出一种基于数据增强的小样本康复医疗命名实体识别方法,应用于康复医疗领域数据的识别。

技术实现思路

[0006]针对现有技术不足,本专利技术提出了一种基于数据增强的小样本康复医疗命名实体识别方法与装置。
[0007]根据本专利技术实施例的第一方面,提供了一种基于数据增强的小样本康复医疗命名实体识别方法,所述方法包括:
[0008]获取初始的康复医疗病例数据并进行命名实体划分,对命名实体划分后的康复医
疗病例数据进行BIOS标注;
[0009]对命名实体划分后的康复医疗病例数据进行数据增强,得到具有新标签的康复医疗病例数据;包括:
[0010]分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码;
[0011]和/或,
[0012]在同类型的命名实体类型之间对康复医疗病例数据中的命名实体进行随机替换;
[0013]将初始的康复医疗病例数据和具有新标签的康复医疗病例数据输入至命名实体识别网络中,得到康复医疗命名实体识别结果。
[0014]根据本专利技术实施例的第二方面,提供了一种基于数据增强的小样本康复医疗命名实体识别装置,包括一个或多个处理器,用于实现上述的基于数据增强的小样本康复医疗命名实体识别方法。
[0015]根据本专利技术实施例的第三方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于数据增强的小样本康复医疗命名实体识别方法。
[0016]与现有技术相比,本专利技术的有益效果为:本专利技术提供了一种基于数据增强的小样本康复医疗命名实体识别方法,通过随机掩码和/或随机替换的数据增强方式生成额外有效的标签康复医疗病例数据,用于在缺少足够的有效标签的康复医疗病例数据情况下补充数据;将增强后的康复医疗病例数据输入到命名实体识别的预训练模型中,通过微调手段使命名实体识别网络模型适配本实例中的康复医疗领域,用于提取康复医疗病例数据中的医疗信息。在小样本情况下,通过本专利技术中的随机掩码和/或随机替换的数据增强方式可以生成大量有效的标签数据,提高了命名实体识别精度,更加有效提取康复医疗文本数据中的命名实体。
附图说明
[0017]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的基于数据增强的小样本康复医疗命名实体识别方法的流程图;
[0019]图2为本专利技术实施例提供的基于数据增强的小样本康复医疗命名实体识别方法的结构性示意图;
[0020]图3为本专利技术实施例提供的初始的康复医疗病例数据并进行命名实体划分的示意图;
[0021]图4为本专利技术实施例提供的使用随机掩码后的康复医疗病例数据的示意图;
[0022]图5为本专利技术实施例提供的使用随机替换后的康复医疗病例数据的示意图;
[0023]图6为本专利技术实施例提供的使用随机替换与随机掩码结合的康复医疗病例数据的示意图;
[0024]图7为本专利技术实施例提供的命名实体识别网络结构的示意图;
[0025]图8为本专利技术实施例提供的命名实体识别网络提取命名实体结果的示意图;
[0026]图9为本专利技术实施例提供的基于数据增强的小样本康复医疗命名实体识别装置的示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0029]参照图1和图2,本专利技术实施例提供了一种基于数据增强的小样本康复医疗命名实体识别方法,所述方法包括如下步骤:
[0030]步骤S1,获取初始的康复医疗病例数据并进行命名实体划分,对命名实体划分后的康复医疗病例数据进行BIOS标注。
[0031]在本实例中的医疗领域获取有效的标签康复医疗病例数据之后,分析康复医疗病例数据格式以及康复医疗病例数据中的命名实体信息。本专利技术中采用数据存储格式为json格式,其中,康复医疗病例数据共包含14种类型的命名实体,命名实体即是文本段落的重要信息或有用信息。康复医疗病例数据包含的命名实体名称以及相对应的英文类别分别为:姓名:name;性别:sex;年龄:age;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,所述方法包括:获取初始的康复医疗病例数据并进行命名实体划分,对命名实体划分后的康复医疗病例数据进行BIOS标注;对命名实体划分后的康复医疗病例数据进行数据增强,得到具有新标签的康复医疗病例数据;包括:分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码;和/或,在同类型的命名实体类型之间对康复医疗病例数据中的命名实体进行随机替换;将初始的康复医疗病例数据和具有新标签的康复医疗病例数据输入至命名实体识别网络中,得到康复医疗命名实体识别结果。2.根据权利要求1所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,康复医疗病例数据对应的命名实体类型包括:姓名、性别、年龄、诊断疾病名称、病程、影响肢体、基础疾病/其他疾病、临床表现、量化值、康复设备、治疗时间、其他设备/治疗、使用前、使用后。3.根据权利要求1或2所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,对命名实体划分后的康复医疗病例数据进行BIOS标注包括:对命名实体划分后的康复医疗病例数据进行BIOS标注,以构建词表和标签表,将命名实体划分后的康复医疗病例数据中的字符和标签分别映射成词表和标签表中的索引位置;其中,B表示组成实体的第一个字符,I表示组成实体除第一个字符以外的其他的字符,O表示非实体的字符,S表示单个实体字符。4.根据权利要求1所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,对康复医疗病例数据中不同的命名实体进行随机掩码包括:分析命名实体划分后的康复医疗病例数据中各个命名实体的长度,设定实体平均掩盖率,利用符号对康复医疗病例数据中不同命名实体的内容进行随机掩码。5.根据权利要求1所述的基于数据增强的小样本康复医疗命名实体识别方法,其特征在于,在同类型的命名实体类...

【专利技术属性】
技术研发人员:陈博孟过刘炯王剑斌沈怡俊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1