System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及医疗诊断信息化,尤其涉及一种电子病历的时间信息自动化标注方法和系统。
技术介绍
1、目前医院系统均采用电子病历的形式进行患者病情和病程管理,其中包含了重要且复杂的时间信息。2004年nist举办的第一届时间表达式识别与归一化测评,正式将时间表达式识别和归一化作为一个独立任务。随着ace2005、semeval-2007及semeval-2010等人工构造的测评数据集的提出,时间表达式标注标准和时间表达式的识别的技术也日益发展。ace2005数据集包括新闻和电子邮件文档559个和7个主要类型的关系,每个关系大约有700个实例;semeval-2007 task 04:classification of semantic relations betweennominals,此任务是对除命名实体以外的简单名词之间的语义关系进行分类,该数据集中共包含因果关系在内的七种词间关系,其中每种关系包含210条数据;semeval-2010 task8数据集是由hendrickx提供的免费数据集,包含1万多个句子。
2、电子病历里,时间表达的用词和机构有一定的规律,然而目前多采用人工标注的方式,还没有成熟的采用基于规则的识别方法对电子病历中的时间信息进行自动化的标注和识别,降低了电子病历的时间信息利用率。
技术实现思路
1、本专利技术的目的是提供一种电子病历的时间信息自动化标注方法和系统,采用基于规则的方式进行时间的识别和标注,最终将时间进行规范化表达,为后续的诊疗和其他电
2、本专利技术一方面提供了一种电子病历的时间信息自动化标注方法,包括:
3、s1,识别自动标注的时间数据并进行分类表达;
4、s2,基于分类表达后的时间数据分别进行自动化标注时间数据计算并分别输出统一形式的日期,所述统一形式的日期为年+月+日的组合;
5、s3,将统一形式的日期进行规范化表达和存储。
6、优选的,所述s1包括:
7、s11,基于所述电子病历基于文字识别提取文本病例;
8、s12,确定时间表达识别式;
9、s13,基于所述时间表达识别式将所述时间数据按照一类时间、二类时间和三类时间分别进行表达,其中所述一类时间表征时间段型时间数据,所述二类时间表征日期型时间数据,所述三类时间表征模糊时间型时间数据。
10、优选的,所述一类时间表示为数字和时间名词的组合,所述一类时间的表达方法包括:
11、(1)对中文数字进行标注:半、一、二、两、三、四、五、六、七、八、九、十;
12、(2)对阿拉伯数字进行标注:取0-9的任意数字排列组合,限制最多不能超过3位,共有10+102+103=1110种数字组合形式;
13、(3)对时间名词进行标注,其中时间名词分为如下四类:
14、年、月、个月、周、个星期、星期、天、日;
15、年半、个月、月半、周半、个星期半、星期半、天半、日半;
16、年+[空1-2格]月、年+周、年+天、年+日、年+月半、年+周半、年+天半、年+日半;
17、月+周、月+周半、月+天、月+天半、月+日、月+日半;
18、所述二类时间表示为数字与年、月、日的组合,所述二类时间的表达方法包括如下任意一种:
19、(1)年+月+日;
20、(2)年+月;
21、(3)年;
22、(4)月+日;
23、其中,所述二类时间年份缺失的第(4)种情况下,将参考时间选取为入院时间,使用入院时间的年份进行填补;年为四位数字且在1800-3000之间;月份数字不超过12;日的数字不超过31;
24、所述三类时间表示为与模糊文字对应的时间表达,所述二类时间的表达方法包括如下任意一种:
25、(1)若电子病历中出现“现今”或“现”或“今”,则提取入院日期作为三类时间;
26、(2)若电子病历中出现“入院”,则提取入院日期作为三类时间。
27、优选的,所述s2包括:
28、对于一类时间输出,以参考时间-时间段的形式进行计算后,将计算结果作为统一形式的日期输出;其中参考时间为入院时间;
29、对于二类时间输出,直接输出按照年+月+日形式的统一形式的日期,其中对于日期中年份缺失的情况,基于参考时间的年份补充日期年份;
30、对于三类时间输出,输出参考时间作为统一形式的日期。
31、优选的,所述s3包括:
32、s31,将自动化标注时间数据对应的统一形式的日期进行规范化表达后形成规范化数据,所述规范化数据的格式为yyyy-mm-dd,其中y表示年,m表示月,d表示日;
33、s32,将规范化表达后的时间数据进行存储,所述存储的内容包括规范化时间数据、时间数据来源字段、来源字段记载的内容。
34、优选的,所述存储的内容还包括优先级。
35、优选的,所述存储的内容还包括时间信息自动化标注的过程数据,所述过程数据包括时间数据模式、时间数据时间戳、时间数据有效性和/或时间数据类型。
36、本专利技术的第二方面提供一种电子病历的时间信息自动化标注系统,包括:
37、识别分类模块(101),识别自动标注的时间数据并进行分类表达;
38、计算输出模块(102),基于分类表达后的时间数据分别进行自动化标注时间数据计算并分别输出统一形式的日期,所述统一形式的日期为年+月+日的组合;
39、规范存储模块(103),将统一形式的日期进行规范化表达和存储。
40、本专利技术的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
41、本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
42、本专利技术提供的方法、系统、电子设备以及计算机可读存储介质,具有如下有益的技术效果:
43、采用基于规则的方式进行时间的识别和标注,最终将时间进行规范化表达,提高了时间类信息的提取和处理效率,为后续的诊疗和其他电子文本的应用提供规范通用且准确可靠的时间依据。
本文档来自技高网...【技术保护点】
1.一种电子病历的时间信息自动化标注方法,其特征在于,包括:
2.根据权利要求1所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述S1包括:
3.根据权利要求2所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述一类时间表示为数字和时间名词的组合,所述一类时间的表达方法包括:
4.根据权利要求3所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述S2包括:
5.根据权利要求4所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述S3包括:
6.根据权利要求5所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述存储的内容还包括优先级。
7.根据权利要求5或6任一所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述存储的内容还包括时间信息自动化标注的过程数据,所述过程数据包括时间数据模式、时间数据时间戳、时间数据有效性和/或时间数据类型。
8.一种电子病历的时间信息自动化标注系统,用于实施权利要求1-7任一所述的方法,其特征在于,包括:
9.
10.一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-7任一所述的方法。
...【技术特征摘要】
1.一种电子病历的时间信息自动化标注方法,其特征在于,包括:
2.根据权利要求1所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述s1包括:
3.根据权利要求2所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述一类时间表示为数字和时间名词的组合,所述一类时间的表达方法包括:
4.根据权利要求3所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述s2包括:
5.根据权利要求4所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述s3包括:
6.根据权利要求5所述的一种电子病历的时间信息自动化标注方法,其特征在于,所述存储的内容还包括优...
【专利技术属性】
技术研发人员:倪鑫,张啸,李哲,李新平,白国良,刘莹颖,杨点煜,徐新,
申请(专利权)人:首都医科大学附属北京儿童医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。