一种文本处理方法和文本处理装置制造方法及图纸

技术编号:9835112 阅读:150 留言:0更新日期:2014-04-02 00:39
本发明专利技术公开了一种文本处理方法和一种文本处理装置,文本处理方法包括以下步骤:S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表;其中,所述语义标准化表的表项分别包括普通术语和对应的标准化术语;S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作,得到经标准化处理的文本;S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配,若是则执行步骤S400,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200;S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本,代替所述经标准化处理的文本和/或编码。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种文本处理方法和一种文本处理装置,文本处理方法包括以下步骤:S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表;其中,所述语义标准化表的表项分别包括普通术语和对应的标准化术语;S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作,得到经标准化处理的文本;S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配,若是则执行步骤S400,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200;S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本,代替所述经标准化处理的文本和/或编码。【专利说明】一种文本处理方法和文本处理装置
本专利技术涉及数据处理
,具体涉及一种适于实现文本在不同标准之间自动转换的文本处理方法和文本处理装置。
技术介绍
目前由于各行业内部的不同机构使用的标准往往不统一,需要实现文本在不同标准之间自动的转换。以医疗系统为例进行说明,基本医疗保险结算单数据中的医学术语普遍存在术语标准各异、表述多样、术语标准覆盖不全面的情况,为信息的处理和应用带来了极大障碍。现有技术的医疗机构将医疗文本“术语标准化”都是通过“码对码”转换实现的。例如,医保局要求医院上传申报数据时,须上传医保标准库中的医保码,这就要求医院向医保局申报之前,需要将自己医院信息系统(即本地系统)中的数据与医保局标准数据库中数据建立映射关系。以某一药品为例,表(一)为医院的信息系统数据库中的术语,表(二)为医保标准库中的术语;反映了同一术语在不同标准中的表现形式不同,现有的方法是通过编码匹配使得使用两种标准的使用者都能够获知术语的含义的。表(一)【权利要求】1.一种文本处理方法,该方法包括以下步骤: S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表;其中,所述语义标准化表的表项分别包括普通术语和对应的标准化术语; S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作,得到经标准化处理的文本; S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配,若是则执行步骤S400,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200 ; S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码,代替所述经标准化处理的文本。2.根据权利要求1所述的方法,其中,步骤S200,具体包括以下步骤: S202、将文本切分为词汇序列; S204、从所述词汇序列中识别并提取术语; S206、将所述术语与语义标准化表中的普通术语进行比对,使用匹配的表项所包括的标准化术语代替对应的术语,从而得到经标准化处理的文本。3.根据权利要求2所述的方法,其中,所述步骤S300,具体包括: 将经标准化处理的文本中的各术语,分别与关联对照表中的标准化术语进行语义精确匹配,若所有的术语均能够精确匹配则执行步骤S400,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200。`4.根据权利要求1所述的方法,其中,所述步骤S100,具体包括: S102、将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配,若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配,从而得到匹配的标准化术语;将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配,若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配,从而得到匹配的标准化术语; S104、将与相同标准化术语匹配的第一表项与第二表项建立关联,得到关联对照表的表项。5.根据权利要求1至4任一项所述的方法,其中, 所述文本为医疗文本;所述第一标准库为医疗机构的标准库;所述第二标准库为医疗管理机构的标准库。6.一种文本处理装置,其中,该文本处理装置包括: 关联单元,适于使用语义标准化表、第一标准库和第二标准库生成关联对照表;其中,所述语义标准化表的表项分别包括普通术语和对应的标准化术语; 文本标准化单元,适于使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作,得到经标准化处理的文本; 语义匹配单元,适于判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配,若是则将匹配结果发送至文本替换单元,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表,并将匹配未成功的消息通知文本标准化单元; 文本替换单元,适于利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码,代替所述经标准化处理的文本。7.根据权利要求6所述的装置,其中, 所述文本标准化单元,适于将文本切分为词汇序列;从所述词汇序列中识别并提取术语;以及将所述术语与语义标准化表中的普通术语进行比对,使用匹配的表项所包括的标准化术语代替对应的术语,从而得到经标准化处理的文本。8.根据权利要求7所述的装置,其中, 所述语义匹配单元,适于将经标准化处理的文本中的各术语,分别与关联对照表中的表项的标准化术语进行语义精确匹配,若所有的术语均能够精确匹配则将匹配结果发送至文本替换单元,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表,并将匹配未成功的消息通知文本标准化单元,以由文本标准化单元对文本重新进行语义标准化操作。9.根据权利要求6所述的装置,其中, 所述关联单元,适于将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配,若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配,从而得到匹配的标准化术语;将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配,若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配,从而得到匹配的标准化术语;以及将与相同标准化术语匹配的第一表项与第二表项建立关联,得到关联对照表的表项。10.根据权利要求6至`9任一项所述的装置,其中, 所述文本为医疗文本;所述第一标准库为医疗机构的标准库;所述第二标准库为医疗管理机构的标准库。【文档编号】G06F17/21GK103678262SQ201310741364【公开日】2014年3月26日 申请日期:2013年12月27日 优先权日:2013年12月27日 【专利技术者】金以东 申请人:中西亚通医疗信息科技(北京)有限公司本文档来自技高网...

【技术保护点】
一种文本处理方法,该方法包括以下步骤:S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表;其中,所述语义标准化表的表项分别包括普通术语和对应的标准化术语;S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作,得到经标准化处理的文本;S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配,若是则执行步骤S400,否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200;S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码,代替所述经标准化处理的文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:金以东
申请(专利权)人:中西亚通医疗信息科技北京有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1