识别解剖学短语制造技术

技术编号:26428886 阅读:32 留言:0更新日期:2020-11-20 14:27
用于识别医学文本中的解剖学短语的方法和系统。本文中所描述的方法和系统使用句法方法来生成相关术语的列表并根据这些术语来定义语法。然后,所描述的方法和系统然后在文本中搜索符合语法的短语。

【技术实现步骤摘要】
【国外来华专利技术】识别解剖学短语
本文描述的实施例总体上涉及用于识别文本中的解剖学短语的系统和方法,并且更具体地但非排他地涉及用于使用句法方法来识别文本中的解剖学短语的系统和方法。
技术介绍
为了自动地从医学文档(例如,放射学报告、肿瘤学临床记录等)中提取信息和数据,算法通常需要识别文档中描述临床概念的所有短语。识别这些短语的一种方法是通过使用医学本体(如或)来执行词汇匹配技术。这些词汇匹配技术通常具有良好的精度。即,如果识别出匹配,则通常是正确的匹配。但是,由于若干原因,查全率通常较低。例如,本体在其同义词列表中通常不完整。一个示例是“CAT扫描”概念。此概念的同义词包括“计算机化,计算机的,以及计算”与“轴向,跨轴,断层摄影和断层扫描”的所有组合。但是,例如SNOMED-CT仅列出了可能的12种组合中的9种。词法匹配可能不起作用的另一个原因是,本体永远都不会完整。对于更复杂的概念尤其如此。例如,在医学报告中,一个人可能会遇到相当复杂的结构,例如“右侧心室前角”或“右前上乳”。这些类型的完整短语通常不存在于本体中。另外,如果部分术语与上下文结合提供足够的信息,则临床医师通常不会写完整的短语。因此,需要一种克服现有系统和方法的缺点的、用于识别文本中的解剖学短语的系统和方法。
技术实现思路
提供本
技术实现思路
以用简化形式介绍一些概念,这些概念将在下面的具体实施例部分进一步描述。本
技术实现思路
并非旨在识别或排除要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定要求保护的主题的范围。在一个方面中,实施例涉及一种用于识别医学文本中的解剖学短语的方法。所述方法包括以下步骤:使用接口访问包括医学信息的一个或多个数据源;使用配置的处理器来执行存储在存储器中的指令,从所述数据源中的至少一个数据源的子集中提取一组概念;使用所述配置的处理器,识别与所述概念中的每个概念相关联的多个术语;使用所述配置的处理器,将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表,使用所述配置的处理器,将至少一个语法规则应用于来自解剖列表中的至少一个术语和来自一般列表的至少一个术语,以生成至少一个复合术语;使用所述配置的处理器,在使用所述接口访问的医学文本中识别所述至少一个复合术语。在一些实施例中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表。并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。在一些实施例中,基于词性标注或字典查找的一部分的结果来对识别出的术语进行分类。在一些实施例中,基于加权多数投票来对识别出的术语进行排序。在一些实施例中,识别出的术语包括至少两个单词。在一些实施例中,识别与每个概念相关联的多个术语包括识别每个概念的同义词。根据另一方面,实施例涉及一种用于识别医学文本中的解剖学短语的系统。所述系统包括:接口,其用于至少访问包括医学信息的一个或多个数据源并且用于接收医学文本;以及至少一个配置的处理器,其执行存储在存储器中的指令以:从所述数据源中的至少一个数据源的子集中提取一组概念;识别与所述概念中的每个概念相关联的多个术语;将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表;将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且在由所述接口接收的医学文本中识别所述至少一个复合术语。在一些实施例中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表,并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。在一些实施例中,基于词性标注或字典查找的一部分的结果来对识别出的术语进行分类。在一些实施例中,基于加权多数投票来对识别出的术语进行排序。在一些实施例中,识别出的术语包括至少两个单词。在一些实施例中,所述至少一个配置的处理器通过识别所述概念中的每个概念的同义词来识别与所述概念中的每个概念相关联的多个术语。根据另一方面,实施例涉及一种包含计算机可执行指令的计算机可读介质,所述计算机可执行指令用于识别医学文本中的解剖学短语。所述介质包括:用于使用接口来访问包括医学信息的一个或多个数据源的计算机可执行指令;用于使用所述配置的处理器来执行存储在存储器中的指令以从所述数据源中的至少一个数据源的子集中提取一组概念的计算机可执行指令;用于使用所述配置的处理器来识别与所述概念中的每个概念相关联的多个术语的计算机可执行指令;用于使用所述配置的处理器将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中的计算机可执行指令;用于使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语的计算机可执行指令;以及用于使用所述配置的处理器来在使用所述接口访问的医学文本中识别至少一个复合术语的计算机可执行指令。在一些实施例中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表,并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。在一些实施例中,用于使用所述配置的处理器来识别与所述概念中的每个概念相关联的多个术语的计算机可执行指令包括用于识别每个概念的同义词的计算机可执行指令。附图说明参考以下附图描述本文中的实施例的非限制性和非穷举性实施例,其中,除非另有说明,否则相同的附图标记在各个视图中指代相同的部件:图1示出了根据一个实施例的用于识别医学文本中的解剖学短语的系统;图2描绘了根据一个实施例的SNOMED-CT本体的一部分的视觉图示;并且图3描绘了根据一个实施例的用于识别医学文本中的解剖学短语的方法的流程图。具体实施方式以下参考附图更详细地描述了各种实施例,附图形成实施例的一部分,并且示出了具体的示例性实施例。然而,本公开的概念可以以许多不同的形式实现,并且不应该被解释为限于本文中阐述的实施例;相反,这些实施例是作为全面和完整公开的一部分提供的,以向本领域技术人员充分传达本公开的概念、技术和实现的范围。各实施例可以被实践为方法、系统或设备。因此,实施例可以采取硬件实现方式、完全软件实现方式或组合了软件和硬件方面的实现方式的形式。因此,以下详细描述不应被认为是限制性的。说明书中对“一个实施例”或“实施例”的引用意味着结合所述实施例描述的特定特征、结构或特性被包括在根据本公开的至少一个范例实现方式中。在说明书中的各位置,短语“在一个实施例中”的出现不一定都指代相同的实施例。在说明书中的各位置,短语“在一些实施例中”的出现不一定都指代相同的实施例。以下说明的一些部关于存储在计算机存储器中的非瞬态信号的操作的符号表示来呈现。这些描述和表示是数据处理领域的技术人员用来最有效地将其工作的本质传达给本领域其他技术人员。这样的操作通常需要对物理量的物理操作。通常,但是不一定,这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电、磁或光学信号的形式。有时,主要是出于通常使用的原因,将这些信号称为比特、值、元素、符号、字符、术语、数字等。此外,有时方便本文档来自技高网...

【技术保护点】
1.一种用于识别医学文本中的解剖学短语的方法,所述方法包括:/n使用接口来访问包括医学信息的一个或多个数据源;/n使用配置的处理器来执行存储在存储器中的指令,从所述数据源中的至少一个数据源的子集中提取一组概念;/n使用所述配置的处理器,识别与所述概念中的每个概念相关联的多个术语;/n使用所述配置的处理器来将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中;/n使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且/n使用所述配置的处理器来在使用所述接口访问的医学文本中识别所述至少一个复合术语。/n

【技术特征摘要】
【国外来华专利技术】20180314 US 62/642,9331.一种用于识别医学文本中的解剖学短语的方法,所述方法包括:
使用接口来访问包括医学信息的一个或多个数据源;
使用配置的处理器来执行存储在存储器中的指令,从所述数据源中的至少一个数据源的子集中提取一组概念;
使用所述配置的处理器,识别与所述概念中的每个概念相关联的多个术语;
使用所述配置的处理器来将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中;
使用所述配置的处理器来将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且
使用所述配置的处理器来在使用所述接口访问的医学文本中识别所述至少一个复合术语。


2.根据权利要求1所述的方法,其中,所述一个或多个解剖列表包括解剖名词列表和解剖形容词列表;并且所述一个或多个一般列表包括一般名词列表和一般形容词列表。


3.根据权利要求2所述的方法,其中,所述识别出的术语是基于词性标注或字典查找的部分的结果而被分类的。


4.根据权利要求2所述的方法,其中,所述识别出的术语是基于加权多数投票而被分类的。


5.根据权利要求1所述的方法,其中,识别出的术语包括至少两个词。


6.根据权利要求1所述的方法,其中,识别与每个概念相关联的多个术语包括识别每个概念的同义词。


7.一种用于识别医学文本中的解剖学短语的系统,所述系统包括:
接口,其用于至少访问包括医学信息的一个或多个数据源并且用于接收医学文本;以及
至少一个配置的处理器,其执行存储在存储器中的指令以:
从所述数据源中的至少一个数据源的子集中提取一组概念;
识别与所述概念中的每个概念相关联的多个术语;
将识别出的术语分类到一个或多个解剖列表和一个或多个一般列表中;
将至少一个语法规则应用于解剖列表中的至少一个术语和一般列表中的至少一个术语以生成至少一个复合术语;并且
在由所述接口接收的医学文本中识别所述至少...

【专利技术属性】
技术研发人员:P·普林森R·C·范奥明
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1