本申请提供了一种肿瘤专病数据库构建系统、方法、电子设备和介质,其中,该系统包括:数据拆分模块,用于将原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块;模型预测模块,用于对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与基础文本信息进行数据封装;指标归一化模块,用于得到结构化病理文本;结构化数据存储模块,用于生成肿瘤专病数据库,可以提供病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。
【技术实现步骤摘要】
一种肿瘤专病数据库构建系统、方法、电子设备和介质
本申请涉及文本处理领域,具体而言,涉及一种肿瘤专病数据库构建系统、方法、电子设备和介质。
技术介绍
传统的医疗文本结构化方案中,基于临床数据的文本抽取,大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大,病理医生和临床医生关注的指标细节差异也很大,临床数据的标注方法、抽取方法以及架构系统并不能满足病理医生的日常生产和科研需求。
技术实现思路
本申请的目的在于提供一种肿瘤专病数据库构建系统、方法、电子设备和介质,可以提供病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。第一方面,本申请实施例提供一种肿瘤专病数据库构建系统,包括:数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。在一种可能的实施方式中,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。在一种可能的实施方式中,所述模型预测模块包括:训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。在一种可能的实施方式中,所述字典标注模块包括:字典构建单元,用于构建字典;信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。在一种可能的实施方式中,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。在一种可能的实施方式中,所述数据封装模块包括:切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。在一种可能的实施方式中,所述指标归一化模块包括:标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。第二方面,本申请实施例提供一种肿瘤专病数据库构建方法,包括:将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;对所述待结构化提取的文本信息进行预处理;利用命名实体识别模型对预处理后的文本信息进行预测;对预处理后的文本信息进行字典标注;对预测结果和字典标注结果进行数据合并;将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。第三方面,本申请实施例提供一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行第二方面所述方法的步骤。第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第二方面所述方法的步骤。本申请所提供的一种肿瘤专病数据库构建系统,包括:数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;字典标注模块,用于对预处理后的文本信息进行字典标注;数据合并模块,用于对预测结果和字典标注结果进行数据合并;数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。采用本方案可以提供高度模块化的病理文本结构化处理系统框架,深度考虑病理医生的需求而开发,深度契合病理科医生的生产和科研需求。并且,可以根据医院实际业务高度定制,易于落地。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例所提供的一种肿瘤专病数据库构建系统的模块组成示意图;图2示出了原始肿瘤专病病理文本截图;图3示出了结构化JSON文本截图;图4示出了本申请实施例所提供的一种肿瘤专病数据库构建方法的流程图;图5示出了本申请实施例所提供的电子设备的示意图。具体实施方式下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。传统的医疗文本结构化方案中,基于临床数据的文本抽取,大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大,病理医生和本文档来自技高网...
【技术保护点】
1.一种肿瘤专病数据库构建系统,其特征在于,包括:/n数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;/n数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;/n模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;/n字典标注模块,用于对预处理后的文本信息进行字典标注;/n数据合并模块,用于对预测结果和字典标注结果进行数据合并;/n数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;/n指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;/n结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。/n
【技术特征摘要】
1.一种肿瘤专病数据库构建系统,其特征在于,包括:
数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;
模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;
字典标注模块,用于对预处理后的文本信息进行字典标注;
数据合并模块,用于对预测结果和字典标注结果进行数据合并;
数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
2.根据权利要求1所述的系统,其特征在于,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。
3.根据权利要求1所述的系统,其特征在于,所述模型预测模块包括:
训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;
预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
4.根据权利要求1所述的系统,其特征在于,所述字典标注模块包括:
字典构建单元,用于构建字典;
信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
5.根据权利要求1所述的系统,其特征在于,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
6.根据权利要求1所述的系统,其特征在于,所述数据封装模块包括:
切...
【专利技术属性】
技术研发人员:许永超,魏博,马素芬,骆佳俊,李力行,凌少平,
申请(专利权)人:志诺维思北京基因科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。