【技术实现步骤摘要】
数字文件信息实体标注和识别方法、装置和系统
本专利技术涉及人工智能
,应用于互联网技术方向,尤其涉及一种数字文件信息实体标注和识别方法、装置和系统。
技术介绍
随着互联网技术的普及,越来越多的应用应运而生,互联网+应用成为方便人们和社会获得更加平等和便捷医疗服务的有效手段,对于数字文件的识别从人工到文本自动识别再到人工智能技术的应用,由于对专业知识人员的要求度极高,不仅需要专业医疗知识,还需要算法或开发的知识,因此不够方便也会极大地增加负担。
技术实现思路
针对上述缺陷,本专利技术要解决的技术问题是如何借助人工智能技术和自然语言处理技术感知和识别用户的各种信息并对后续决策流程进行建模,实现自动执行和智能决策。针对上述缺陷,本专利技术的目的在于提供一种数字文件信息实体标注和识别方法、系统及电子设备、计算机存储介质和程序产品。应用于服务器端,提取数字文件中的全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。优选的,根据需求创建任务,关联训练模型,分配计算空间后上传要打标的数据集。优选的,通过词表将纯文本处理成表格中的数据四元组数据,关键字、实体类型、位置以及文本下标。优选的,将数据作为标签函数的输入,通过Snorkel模型的训练后针对每一行数据都产生一个实体。优选的,具体包括:S1、从用户 ...
【技术保护点】
1.一种数字文件信息实体标注和识别方法,其特征在于,提取数字文件中的全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。/n
【技术特征摘要】
1.一种数字文件信息实体标注和识别方法,其特征在于,提取数字文件中的全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。
2.根据权利要求1所述的数字文件信息实体标注和识别方法,其特征在于,所述方法根据需求创建任务,关联训练模型,分配计算空间后上传要打标的数据集。
3.根据权利要求1所述的数字文件信息实体标注和识别方法,其特征在于,通过词表将纯文本处理成表格中的数据四元组数据,关键字、实体类型、位置以及文本下标。
4.根据权利要求1-3之一所述的数字文件信息实体标注和识别方法,其特征在于,将数据作为标签函数的输入,通过Snorkel模型的训练后针对每一行数据都产生一个实体。
5.根据权利要求1所述的数字文件信息实体标注和识别方法,其特征在于,所述方法具体包括:
S1、从用户输入的文本材料中提取全文本信息;
S2、对文本信息进行切词处理;
S3、通过词表,将纯文本处理成表格中的四元组数据;
S4、关联Snorkel训练模型并分配计算空间;
S5、上传需要打标的数据集;
S6、生成标签函数并进行模型训练;
S7、通过Snorkel训练对输入的数据产出对应的实体;
S8、将标注好的数据与原始数据融合,生成Bert训练的数据。
6.根据权利要求1或5所述的数字文件信息实体标注和识别方法,其特征在于,所述数字文件为冠状动脉造影本报告单和/或冠状动脉造影病例报告。
7.根据权利要求6所述的数字文件信息实体标注和识别方法,其特征在于,所述方法包括:
S201、从冠状动脉造影本报告单和/或冠状动脉造影病例报告中经过OCR提取全文本信息,包括冠状动脉造影病案号;
S202、通过词表,将纯文本处理成表格中的数据四元组数据,标号为1、2、……,词表为左前降支、右回旋支、……;
S203、将步骤S202得到的数据作为标签函数的输入,通过Snorkel的训练后针对每一行的数据产出一个实体,冠状动脉造影报告单对应为右冠状动脉label,冠状动脉造影病案号对应常规体位造影示label;
S204、将标注好的数据和原始数据进行融合,生成Bert训练的数据。
8.一种数字文件信息实体标注和识别方法,应用于互联网医疗平台,其特征在于,基于终端设备获取用户授权许可,采集用户上传的数字文件并发送到后台服务器的数据中心处理系统,数据中心处理系统对数字文件进行OCR识别获取全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果,结合互联网医疗平台的应用产品给用户输出具体的解决方案。
...
【专利技术属性】
技术研发人员:陈冠伟,
申请(专利权)人:北京好欣晴移动医疗科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。