一种面向多数据源的症状体征类实体识别方法及装置制造方法及图纸

技术编号:15725010 阅读:127 留言:0更新日期:2017-06-29 12:02
本发明专利技术提供了一种面向多数据源的症状体征类实体识别方法及装置,涉及医疗实体识别技术领域。方法包括:获取原始数据中的待处理语句;将待处理语句进行单字切分,确定每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的症状体征类术语切分策略,对待处理语句进行术语切分,确定第二组候选实体;对各候选实体进行筛选,分别形成第一组症状体征类候选实体和第二组症状体征类候选实体;根据预先设置的判断策略确定症状体征类实体结果。

【技术实现步骤摘要】
一种面向多数据源的症状体征类实体识别方法及装置
本专利技术涉及医疗实体识别
,尤其涉及一种面向多数据源的症状体征类实体识别方法及装置。
技术介绍
目前,随着网络和医疗信息技术的发展、中国人口逐渐趋于老年化、互联网医疗逐渐兴起,人们对医疗服务需求水平越来越高。而这也与医疗资源的相对短缺之间的矛盾越专利技术显。要实现疾病的智能诊断与治疗,离不开从医疗大数据中识别出疾病与其症状体征的对应关系,此过程即为症状体征实体识别过程。近年来,作为医疗健康数据分析的重要的一步,医疗实体识别(例如症状体征类的实体识别)可以抽取出相关文本中存在的医疗术语,对后续研究的性能起到重要的作用。目前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(ConditionalRandomFields,简称CRF)的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术,缺少大数据语料库和语言规则的应用,语料均为人工标注后的语料,而没有利用半监督学习等方法,增加对数量更庞大的未标注数据的使用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。可见,当前的实体识别方案并不能准确进行症状体征类实体识别。
技术实现思路
本专利技术的实施例提供一种面向多数据源的症状体征类实体识别方法及装置,以解决当前的实体识别方案并不能准确进行症状体征类实体识别的问题。为达到上述目的,本专利技术采用如下技术方案:一种面向多数据源的症状体征类实体识别方法,包括:获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的症状体征类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组症状体征类候选实体和第二组症状体征类候选实体;若第一组症状体征类候选实体和第二组症状体征类候选实体不相同,根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。具体的,所述根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果,包括:确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组症状体征类候选实体中的候选实体作为症状体征类实体结果;若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组症状体征类候选实体中的候选实体作为症状体征类实体结果;或者,确定来源于相同待处理语句的原始字符串的第一组症状体征类候选实体和第二组症状体征类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为症状体征类实体结果;所述症状体征类实体结果中的实体类型包括症状实体和体征实体;在所述第一组症状体征类候选实体和第二组症状体征类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。具体的,所述原始数据包括电子病历数据、结算单数据、临床科研数据、医学知识库数据、期刊文献数据。具体的,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:根据所述训练模型,计算待处理语句中的每个文字的实体标记yj;将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。具体的,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。进一步的,该面向多数据源的症状体征类实体识别方法,还包括:在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;将待处理语句中不确定值为1的实体与预先设置的症状体征本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;确定待处理语句的预测置信度和字典匹配标记的实体比例;将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。具体的,根据预先设置的症状体征类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;将预处理后的待处理语句采用逆向最大匹配原则与预先设置的症状体征数据库进行匹配,将预处理后的待处理语句中与症状体征数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;将预处理后的待处理语句的原始字符串与预先设置的句型数据库进行匹配;若所述预处理后的待处理语句的原始字符串与预先设置的句型数据库中的句型格式匹配,则将所述预处理后的待处理语句的原始字符串采用逆向最大匹配原则与预先设置的疾病本体数据库进行匹配,将与疾病本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;将预处理后的待处理语句中的各初步实体作为第二组候选实体。具体的,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组症状体征类候选实体和第二组症状体征类候选实体,包括:判断第一组候选实体和第二组候选实体中各候选实体的末本文档来自技高网...
一种面向多数据源的症状体征类实体识别方法及装置

【技术保护点】
一种面向多数据源的症状体征类实体识别方法,其特征在于,包括:获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的症状体征类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组症状体征类候选实体和第二组症状体征类候选实体;若第一组症状体征类候选实体和第二组症状体征类候选实体不相同,根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。

【技术特征摘要】
1.一种面向多数据源的症状体征类实体识别方法,其特征在于,包括:获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的症状体征类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组症状体征类候选实体和第二组症状体征类候选实体;若第一组症状体征类候选实体和第二组症状体征类候选实体不相同,根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。2.根据权利要求1所述的面向多数据源的症状体征类实体识别方法,其特征在于,所述根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果,包括:确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组症状体征类候选实体中的候选实体作为症状体征类实体结果;若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组症状体征类候选实体中的候选实体作为症状体征类实体结果;或者,确定来源于相同待处理语句的原始字符串的第一组症状体征类候选实体和第二组症状体征类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为症状体征类实体结果;所述症状体征类实体结果中的实体类型包括症状实体和体征实体;在所述第一组症状体征类候选实体和第二组症状体征类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。3.根据权利要求2所述的面向多数据源的症状体征类实体识别方法,其特征在于,所述原始数据包括电子病历数据、结算单数据、临床科研数据、医学知识库数据、期刊文献数据。4.根据权利要求3所述的面向多数据源的症状体征类实体识别方法,其特征在于,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:根据所述训练模型,计算待处理语句中的每个文字的实体标记yj;将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。5.根据权利要求4所述的面向多数据源的症状体征类实体识别方法,其特征在于,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。6.根据权利要求5所述的面向多数据源的症状体征类实体识别方法,其特征在于,还包括:在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;将待处理语句中不确定值为1的实体与预先设置的症状体征本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;确定待处理语句的预测置信度和字典匹配标记的实体比例;将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。7.根据权利要求6所述的面向多数据源的症状体征类实体识别方法,其特征在于,根据预先设置的症状体征类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;将预处理后的待处理语句采用逆向最大匹配原则与预先设置的症状体征数据库进行匹配,将预处理后的待处理语句中与症状体征数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;将预处理后的待处理语句的原始字符串与预先设置的句型数据库进行匹配;若所述预处理后的待处理语句的原始字符串与预先设置的句型数据库中的句型格式匹配,则将所述预处理后的待处理语句的原始字符串采用逆向最大匹配原则与预先设置的疾病本体数据库进行匹配,将与疾病本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;将预处理后的待处理语句中的各初步实体作为第二组候选实体。8.根据权利要求7所述的面向多数据源的症状体征类实体识别方法,其特征在于,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组症状体征类候选实体和第二组症状体征类候选实体,包括:判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非症状体征术语字符;若各候选实体的末尾字符为预先设置的非症状体征术语字符,将所述候选实体舍弃。9.一种面向多数据源的症状体征类实体识别装置,其特征在于,包括:待处理语句获取单元,用于获取原始数据中的待...

【专利技术属性】
技术研发人员:李雪莉关毅黄玉丽
申请(专利权)人:黑龙江特士信息技术有限公司哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1