一种基于Bert模型的词推送的医学术语标注方法和装置制造方法及图纸

技术编号：37437600 阅读：15 留言：0更新日期：2023-05-06 09:09

本发明专利技术公开了一种基于Bert模型的词推送的医学术语标注方法，涉及智能医疗领域，特别涉及一种基于Bert模型的词推送的医学术语标注方法和装置；其通过把文本数据导入分词关联度计算模型，计算出各个目标字段与各个分词的关联度，并筛选出各个目标字段对应的关联分词；进而分别根据各个目标字段及对应的关联分词生成对应的标注任务；标注人员只需根据标注任务中的选项对各个筛选出的关联分词进行判定，不需要从大段的文本中去寻找包含关键字段的词和句，减轻标注人员的工作量；采用Bert模型从文本中自动匹配与标注字段相关的词、句，可以将全量的病历文本纳入模型进行训练，不需要从全量病历中挑选病历进行标注，解决了传统标注对病历数量覆盖度低的问题。标注对病历数量覆盖度低的问题。标注对病历数量覆盖度低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Bert模型的词推送的医学术语标注方法和装置

[0001]本专利技术涉及智能医疗领域，特别涉及一种基于Bert模型的词推送的医学术语标注方法和装置。

技术介绍

[0002]医疗数据的结构化一直以来是临床科研的一个重点和难点。调查研究表明，目前医院的数据仅有约不到10％处于结构化状态，大量有价值的信息埋藏于非结构化数据中，尤其是病历文本中。为了利用剩下的非结构化文本数据，进行临床科研时，医院科研人员往往需要从海量的病历文书、检查报告等大段的医学文本中提取关键的字段以及其对应的值。关键字段的提取质量、准确度等往往直接会影响临床科研的质量。通常来讲，医疗文本数据的体量极大，有限的人力物力无法在短时间内处理海量的文本数据。因而，如何准确、快速的实现医疗数据的结构化长期困扰着临床工作人员以及医疗信息化工作者。
[0003]在现有技术中，已存在一些以自然语言处理等人工智能技术为代表的医学文本数据的结构化方法。这些方法在一定程度上解放了临床工作者翻阅病历的时间和精力成本。但是，这些方法需要依赖于大量的人工标注工作，通常表现为在整段的医学文本、分句中寻找包含关键字段的语句，并通过标注工具进行标注，并且标明该语句所代表的字段值。使用上述标注方法，以包含约100个字段的入院记录为例，一般情况下1人/天可以标注约10
‑
20份，标够100份病历通常需要1
‑
2周，严重制约了数据的结构化速度，标注效率极低，另外，在标注人员对大段的文本进行标注时，由于难以快速准确定定位到包含关键字段的语句，...

【技术保护点】

【技术特征摘要】
1.一种基于Bert模型的词推送的医学术语标注方法，其特征在于，包括以下步骤：S1：对目标文本进行数据抽取，获取文本数据；所述文本数据包括若干个目标字段，以及对应的业务域；S2：把所述文本数据导入分词关联度计算模型，分别计算出各个所述目标字段与各个分词的关联度；所述关联度计算模型包括若干个分词及各个分词对应的词向量；S3：根据所述关联度筛选出各个目标字段对应的关联分词；S4：分别根据所述各个目标字段及对应的关联分词生成对应的标注任务；所述标注任务关联有对应的业务域；S5：根据标注人员对标注任务中的各个关联分词的判定结果，确定目标字段的标注分词。2.根据权利要求1所述的一种基于Bert模型的词推送的医学术语标注方法，其特征在于,所述步骤S1包括以下步骤：S11：从数据库中抽取确定目标文本；S12：对所述目标文本进行数据清洗，去除无效字符，形成目标字段；S13：对所述目标字段进行切句，形成若干短句；S14：根据确定的词汇表对所述目标字段中的各个字符进行ID转换，生成对应的文本数据。3.根据权利要求2所述的一种基于Bert模型的词推送的医学术语标注方法，其特征在于：所述步骤S4中生成的各个标注任务中的各个关联分词均设有对应的判定选项。4.根据权利要求2或3所述的一种基于Bert模型的词推送的医学术语标注方法，其特征在于,所述步骤S2包括以下步骤：S21：提取所述目标字段中各个短句的向量表达，以及，提取各个分词的向量表达；S22：根据所述各个分词的向量表达和所述各个短句的向量表达的计算出对应的各个向量点积，以及，计算各个所述短句的向量的第二范数；S23：通过分别计算所述各个向量点积与对应的各个所述短句的向量的第二范数的比值，计算各个目标字段与各个分词的关联度。5.根据权利要求4所述的一种基于Bert模型的词推送的医学术语标注方法，其特征在于：所述步骤S2包括以下步骤：S24：对所述关联度进行降序排序，并根据预设的关联分词的数量，筛选出各个目标字段对应的各个关联分词。6.根据权利要求5所述的一种基于Bert模型的词推送的医学术语标注方法，其特征在于：所述分词关联度计算模型采用Bert模型，所...

【专利技术属性】
技术研发人员：刘翔，杨栋，王博涵，
申请(专利权)人：广州知汇云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人