一种基于Bert模型的词推送的医学术语标注方法和装置制造方法及图纸

技术编号:37437600 阅读:15 留言:0更新日期:2023-05-06 09:09
本发明专利技术公开了一种基于Bert模型的词推送的医学术语标注方法,涉及智能医疗领域,特别涉及一种基于Bert模型的词推送的医学术语标注方法和装置;其通过把文本数据导入分词关联度计算模型,计算出各个目标字段与各个分词的关联度,并筛选出各个目标字段对应的关联分词;进而分别根据各个目标字段及对应的关联分词生成对应的标注任务;标注人员只需根据标注任务中的选项对各个筛选出的关联分词进行判定,不需要从大段的文本中去寻找包含关键字段的词和句,减轻标注人员的工作量;采用Bert模型从文本中自动匹配与标注字段相关的词、句,可以将全量的病历文本纳入模型进行训练,不需要从全量病历中挑选病历进行标注,解决了传统标注对病历数量覆盖度低的问题。标注对病历数量覆盖度低的问题。标注对病历数量覆盖度低的问题。

【技术实现步骤摘要】
一种基于Bert模型的词推送的医学术语标注方法和装置


[0001]本专利技术涉及智能医疗领域,特别涉及一种基于Bert模型的词推送的医学术语标注方法和装置。

技术介绍

[0002]医疗数据的结构化一直以来是临床科研的一个重点和难点。调查研究表明,目前医院的数据仅有约不到10%处于结构化状态,大量有价值的信息埋藏于非结构化数据中,尤其是病历文本中。为了利用剩下的非结构化文本数据,进行临床科研时,医院科研人员往往需要从海量的病历文书、检查报告等大段的医学文本中提取关键的字段以及其对应的值。关键字段的提取质量、准确度等往往直接会影响临床科研的质量。通常来讲,医疗文本数据的体量极大,有限的人力物力无法在短时间内处理海量的文本数据。因而,如何准确、快速的实现医疗数据的结构化长期困扰着临床工作人员以及医疗信息化工作者。
[0003]在现有技术中,已存在一些以自然语言处理等人工智能技术为代表的医学文本数据的结构化方法。这些方法在一定程度上解放了临床工作者翻阅病历的时间和精力成本。但是,这些方法需要依赖于大量的人工标注工作,通常表现为在整段的医学文本、分句中寻找包含关键字段的语句,并通过标注工具进行标注,并且标明该语句所代表的字段值。使用上述标注方法,以包含约100个字段的入院记录为例,一般情况下1人/天可以标注约10

20份,标够100份病历通常需要1

2周,严重制约了数据的结构化速度,标注效率极低,另外,在标注人员对大段的文本进行标注时,由于难以快速准确定定位到包含关键字段的语句,容易造成漏标、误标现象。
[0004]因此,针对现有技术中存在的问题,亟需提供一种能够快速且准确地完成术语标注的技术显得尤为重要。

技术实现思路

[0005]本专利技术的目的在于避免现有技术中的不足之处而提供一种能够快速且准确地完成术语标注的技术。
[0006]本专利技术的目的通过以下技术方案实现:
[0007]因此,根据本专利技术公开的一个方面,提供了一种基于Bert模型的词推送的医学术语标注方法,包括以下步骤:
[0008]S1:对目标文本进行数据抽取,获取文本数据;文本数据包括若干目标字段,以及对应的业务域;
[0009]S2:把文本数据导入分词关联度计算模型,分别计算出各个目标字段与各个分词的关联度;关联度计算模型包括若干个分词及各个分词对应的词向量;
[0010]S3:根据关联度筛选出各个目标字段对应的关联分词;
[0011]S4:分别根据各个目标字段及对应的关联分词生成对应的标注任务;标注任务关联有对应的业务域;
[0012]S5:根据标注人员对标注任务中的各个关联分词的判定结果,确定目标字段的标注分词。
[0013]具体的,步骤S1包括以下步骤:
[0014]S11:从数据库中抽取确定目标文本;
[0015]S12:对目标文本进行数据清洗,去除无效字符,形成目标字段;
[0016]S13:对目标字段进行切句,生成各个短句;
[0017]S14:根据确定的词汇表对目标字段中的各个字符进行ID转换,生成对应的文本数据。
[0018]另一具体的,步骤S4中生成的各个标注任务中的各个关联分词均设有对应的判定选项。
[0019]以上的,步骤S2包括以下步骤:
[0020]S21:提取目标字段中各个短句的向量表达,以及,提取各个分词的向量表达;
[0021]S22:根据各个分词的向量表达和各个短句的向量表达的计算出对应的各个向量点积,以及,计算各个短句的向量的第二范数;
[0022]S23:通过分别计算各个向量点积与对应的各个短句的向量的第二范数的比值,计算各个目标字段与各个分词的关联度。
[0023]进一步的,步骤S2包括以下步骤:
[0024]S24:对关联度进行降序排序,并根据预设的关联分词的数量,筛选出各个目标字段对应的各个关联分词。
[0025]更进一步的,分词关联度计算模型采用Bert模型,Bert模型包括依次连接的输入层、词嵌入层和编码器层;编码器层包括第一编码器层和第二编码器层,第一编码器层包括若干个第一编码器、第二编码器层包括若干个第二编码器;
[0026]各个第一编码器的输入端分别与词嵌入层连接;各个第一编码器的输出端分别与每一个第二编码器连接。
[0027]更进一步的,词嵌入层包括词向量模型;词向量模型为预训练的CBOW模型;
[0028]各个第一编码器和第二编码器分别包括对应的Multi

Head Attention层、Residual

Network层、Feed

Fordward层和Layer

Normalization层;
[0029]各个Multi

Head Attention层均由多个self

attention组成。
[0030]根据本专利技术公开的另一个方面,提供了一种基于Bert模型的词推送的医学术语标注装置,包括:文本提取模块、关联度计算模块、关联分词提取模块、任务生成模块和标注模块;
[0031]文本提取模块用于对目标文本进行数据抽取,获取文本数据;
[0032]关联度计算模块内置有关联度计算模型,用于分别计算出各个目标字段与各个分词的关联度;
[0033]关联分词提取模块用于根据关联度筛选出各个目标字段对应的关联分词;
[0034]任务生成模块用于分别根据各个目标字段及对应的关联分词生成对应的标注任务;
[0035]标注模块用于根据标注人员对标注任务中的各个关联分词的判定结果,确定目标字段的标注分词。
[0036]根据本专利技术公开的再一方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行指令时实现如上一种基于Bert模型的词推送的医学术语标注方法的步骤。
[0037]根据本专利技术公开的另一方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上一种基于Bert模型的词推送的医学术语标注方法的步骤。
[0038]本专利技术的有益效果:一种基于Bert模型的词推送的医学术语标注方法,通过把文本数据导入分词关联度计算模型,分别计算出各个目标字段与各个分词的关联度;并根据关联度筛选出各个目标字段对应的关联分词;进而分别根据各个目标字段及对应的关联分词生成对应的标注任务;标注人员只需根据标注任务中的选项对各个筛选出的关联分词进行判定,不需要从大段的文本中去寻找包含关键字段的词和句,减轻标注人员的工作量;采用Bert模型从文本中自动匹配与标注字段相关的词、句,可以将全量的病历文本纳入模型进行训练,不需要从全量病历中挑选病历进行标注,解决了传统标注对病历数量覆盖度低的问题;进一步还可以根据标注人的标注操作,自动完成标注字段的同义词、近义词以及反义词积累,实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Bert模型的词推送的医学术语标注方法,其特征在于,包括以下步骤:S1:对目标文本进行数据抽取,获取文本数据;所述文本数据包括若干个目标字段,以及对应的业务域;S2:把所述文本数据导入分词关联度计算模型,分别计算出各个所述目标字段与各个分词的关联度;所述关联度计算模型包括若干个分词及各个分词对应的词向量;S3:根据所述关联度筛选出各个目标字段对应的关联分词;S4:分别根据所述各个目标字段及对应的关联分词生成对应的标注任务;所述标注任务关联有对应的业务域;S5:根据标注人员对标注任务中的各个关联分词的判定结果,确定目标字段的标注分词。2.根据权利要求1所述的一种基于Bert模型的词推送的医学术语标注方法,其特征在于,所述步骤S1包括以下步骤:S11:从数据库中抽取确定目标文本;S12:对所述目标文本进行数据清洗,去除无效字符,形成目标字段;S13:对所述目标字段进行切句,形成若干短句;S14:根据确定的词汇表对所述目标字段中的各个字符进行ID转换,生成对应的文本数据。3.根据权利要求2所述的一种基于Bert模型的词推送的医学术语标注方法,其特征在于:所述步骤S4中生成的各个标注任务中的各个关联分词均设有对应的判定选项。4.根据权利要求2或3所述的一种基于Bert模型的词推送的医学术语标注方法,其特征在于,所述步骤S2包括以下步骤:S21:提取所述目标字段中各个短句的向量表达,以及,提取各个分词的向量表达;S22:根据所述各个分词的向量表达和所述各个短句的向量表达的计算出对应的各个向量点积,以及,计算各个所述短句的向量的第二范数;S23:通过分别计算所述各个向量点积与对应的各个所述短句的向量的第二范数的比值,计算各个目标字段与各个分词的关联度。5.根据权利要求4所述的一种基于Bert模型的词推送的医学术语标注方法,其特征在于:所述步骤S2包括以下步骤:S24:对所述关联度进行降序排序,并根据预设的关联分词的数量,筛选出各个目标字段对应的各个关联分词。6.根据权利要求5所述的一种基于Bert模型的词推送的医学术语标注方法,其特征在于:所述分词关联度计算模型采用Bert模型,所...

【专利技术属性】
技术研发人员:刘翔杨栋王博涵
申请(专利权)人:广州知汇云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1