语句生成制造技术

技术编号:24092885 阅读:84 留言:0更新日期:2020-05-09 08:53
公开了用于为放射学报告生成自然语言语句的方法、装置。所述方法包括:获得一个或多个词,所述一个或多个词已经基于对放射学图像的图像处理而被产生;通过使用计算机实现的文本分析过程来分析所述一个或多个词,用于生成表示放射学图像的自然语言语句;以及输出自然语言语句。所述计算机实现的文本分析过程包括:对于所述一个或多个词中的每一个并且通过使用经修改的词嵌入而确定表示词的向量;以及基于所确定的一个或多个向量并且通过使用文本生成器模型来确定自然语言语句。

Statement generation

【技术实现步骤摘要】
语句生成
本专利技术涉及语句生成,并且更具体地涉及通过使用计算机实现的文本分析过程的语句生成。
技术介绍
医学文本报告、例如放射学报告被使用在医学领域中用以在医学专业人士之间传送信息。例如,患者的医师可以建议患者进行某种医学成像,例如计算机断层扫描血管造影术(CTA)。放射科技师然后实施对患者的医学成像,并且放射科医师然后读取或解释结果得到的图像以产生他们的发现的基于文本的放射学报告,其典型地通过使用自然语言语句来被编写。放射学报告然后被提供给咨询医师。咨询医师然后可以基于放射学报告而做出对患者的状况的诊断。已知的基于人工智能(AI)的图像分析算法分析医学图像以检测异常,检测解剖实体,对器官尺寸进行分割和量化,或将异常分类成各种类型等等。为不同的特定任务训练不同的AI算法。给定AI算法的输出一般包括:包括数值或类别变量的发现的经结构化且定量的表。US9767557B1(西门子保健有限责任公司)公开了基于递归神经网络(RNN)长短期记忆(LSTM)的斑块检测AI算法,其可以被应用到冠状CT血管造影术图像以检测斑块,并且输出与图像有关的分类结果。分类结果可以是多类标签,例如针对斑块类型分类(例如钙化的、非钙化的、混合的),或连续的值,例如针对狭窄分级退化。然而,对于咨询医师或信息的其他消费者而言可以难以解释AI算法的输出。将AI图像处理算法输出转换成自然语言语句将减轻该问题。用于将放射学发现转换成自然语言语句的已知方法是供放射科医师使用听写系统中的预定义的宏,所述听写系统基于关键字而自动地将叙述性文本填充到报告中。这些宏是硬编码的并且被单独定义,从而需要大量手动努力来创建。所述宏此外不可适应于可能不同于创建宏的时候所意图的规则的情形,并且当仅仅向它们提供部分信息的时候不能创建叙述性语句。因此合期望的是提供一种用于根据从放射学图像分析所获得的数据来生成自然语言语句的高效、灵活并且可靠的方法。
技术实现思路
根据本专利技术的第一方面,提供有一种用于为放射学报告生成自然语言语句的方法,所述方法包括:获得一个或多个词,所述一个或多个词已经基于对放射学图像的图像处理而被产生;通过使用计算机实现的文本分析过程来分析所述一个或多个词,用于生成表示放射学图像的自然语言语句;以及输出自然语言语句;其中所述计算机实现的文本分析过程包括:对于所述一个或多个词中的每一个并且通过使用词嵌入而确定表示词的向量;以及基于所确定的一个或多个向量并且通过使用文本生成器模型来确定自然语言语句;并且其中所述词嵌入是已经通过基于第一数据而修改第一词嵌入所生成的词嵌入,所述第一词嵌入已经基于第一语料库和第二语料库中之一而被生成,所述第一数据已经基于所述第一语料库和第二语料库中的另一个而被生成,所述第一语料库包括来自一个或多个放射学报告的文本,所述第二语料库不同于第一语料库并且包括明语文本。可选地,第一数据包括第二词嵌入,所述第二词嵌入已经基于第一和第二语料库中的另一个而被生成,并且所述词嵌入是已经通过基于第二词嵌入而修改第一词嵌入所生成的词嵌入。可选地,词嵌入是已经通过如下而被生成的词嵌入:对于针对给定词的给定词嵌入,连接(concatenate)针对给定词的第一词嵌入的向量与针对给定词的第二词嵌入的向量以产生针对给定词的经修改的向量。可选地,所述第一数据包括语义词典,所述语义词典已经基于所述第一和第二语料库中的另一个而被生成,并且所述词嵌入是已经通过基于所述语义词典而修改第一词嵌入的向量的值所生成的词嵌入。可选地,所述方法包括:生成第一词嵌入和第一数据;以及基于所述第一数据来修改第一词嵌入,从而生成用于确定表示每个词的向量的词嵌入。可选地,所述方法包括:基于训练数据的数据库来训练文本生成器模型,所述训练数据包括一个或多个词的群组,每个群组利用与自然语言语句相对应的地面实况来被标注。可选地,所述方法包括:通过使用第一所述文本生成器模型并且基于一个或多个所获得的词而确定第一自然语言语句;以及通过使用第二、不同的所述文本生成器模型并且基于所述一个或多个所获得的词而确定第二自然语言语句。可选地,所述第二自然语言语句采用与第一自然语言语句不同的语言。可选地,所述方法包括:在第一放射学报告中输出第一自然语言语句;以及在与第一放射学报告不同的第二放射学报告中输出第二自然语言语句。可选地,所述方法包括:基于第一训练数据来训练第一文本生成器模型;以及基于与第一训练数据不同的第二训练数据来训练第二文本生成器模型。可选地,所述方法包括:分析在放射学图像上所执行的经计算机实现的图像分析过程的输出来确定所述一个或多个词。可选地,所述方法包括:在放射学图像上执行经计算机实现的分析过程以提供图像分析过程的输出。根据本专利技术的第二方面,提供有包括处理器和存储器的装置,所述处理器和存储器被布置成执行根据第一方面的方法。可选地,所述装置是医学成像扫描仪。根据本专利技术的第三方面,提供有一种具有被存储在其上的指令的计算机可读介质,所述指令当由计算机执行的时候使得计算机执行根据任何第一方面的方法。根据仅仅作为示例被给出的本专利技术优选实施例的以下描述,本专利技术的另外的特征和优点将变得显而易见,所述以下描述参考附图而被做出。附图说明图1是一流程图,其示意性地图示了根据示例的方法;图2是一图解,其示意性地图示了根据示例的功能单元;并且图3是一图解,其示意性地图示了根据示例的装置。具体实施方式图1示意性地图示了根据示例的用于为放射学报告生成自然语言语句的方法的步骤的流程图。参考图1,所述方法包括在步骤102中获得一个或多个词,所述一个或多个词已经基于对放射学图像的图像处理而被产生。例如,放射学图像可以是通过使用医学成像扫描仪而执行医学成像所获得的图像。例如,用于获得放射学图像的医学成像可以包括计算机断层扫描(CT)扫描,例如计算机断层扫描血管造影术(CTA),或可以包括例如磁共振成像(MRI),例如应力灌注心脏MRI等等。在一些示例中,用于产生所述一个或多个词的对放射学图像的图像处理可以包括由人类进行的分析。例如,放射科医师可以读取或解释放射学图像,并且提供一个或多个关键字,其表示所述图像或其越来越多的医学发现。例如,参考图2,用于产生所述一个或多个词的第一示例方法208可以包括放射科医师分析204一个或多个放射学图像202以提供可视关键字206的表。在该示例中,表示图像202或其相关发现的可视关键字是“中等狭窄”、“中间部分”以及“钙化的动脉粥样硬化”。在该示例中,所述一个或多个词可以通过如下来被获得:放射科医师通过使用键盘来将词录入到计算机中,或通过使用语音至文本软件进行的听写,或通过web(网络)形式,其例如包括一个或多个下拉菜单,等等。放射科医师因此可以将对图像的分析的发现录入为一个或多个关键字,如与自然语言语句相对。这可以改善放射学图像分析的效率。在一些示例中,用于产生所述一本文档来自技高网
...

【技术保护点】
1.一种用于为放射学报告生成自然语言语句的方法,所述方法包括:/n获得(102)一个或多个词(206),所述一个或多个词已经基于对放射学图像(202)的图像处理而被产生;/n通过使用计算机实现的文本分析过程来分析(104)所述一个或多个词,用于生成表示放射学图像(202)的自然语言语句(232);以及/n输出(106)自然语言语句(232);/n其中所述计算机实现的文本分析过程包括:/n对于所述一个或多个词中的每一个并且通过使用经修改的词嵌入(228)而确定表示词的向量;以及/n基于所确定的一个或多个向量并且通过使用文本生成器模型(230)来确定自然语言语句(232);并且/n其中所述经修改的词嵌入(228)是已经通过基于第一数据而修改第一词嵌入所生成的词嵌入,所述第一词嵌入已经基于第一语料库(220)和第二语料库(224)中之一而被生成,所述第一数据已经基于所述第一语料库(220)和第二语料库(224)中的另一个而被生成,所述第一语料库(220)包括来自一个或多个放射学报告的文本,所述第二语料库(224)不同于第一语料库(220)并且包括明语文本。/n

【技术特征摘要】
20181012 EP 18200204.81.一种用于为放射学报告生成自然语言语句的方法,所述方法包括:
获得(102)一个或多个词(206),所述一个或多个词已经基于对放射学图像(202)的图像处理而被产生;
通过使用计算机实现的文本分析过程来分析(104)所述一个或多个词,用于生成表示放射学图像(202)的自然语言语句(232);以及
输出(106)自然语言语句(232);
其中所述计算机实现的文本分析过程包括:
对于所述一个或多个词中的每一个并且通过使用经修改的词嵌入(228)而确定表示词的向量;以及
基于所确定的一个或多个向量并且通过使用文本生成器模型(230)来确定自然语言语句(232);并且
其中所述经修改的词嵌入(228)是已经通过基于第一数据而修改第一词嵌入所生成的词嵌入,所述第一词嵌入已经基于第一语料库(220)和第二语料库(224)中之一而被生成,所述第一数据已经基于所述第一语料库(220)和第二语料库(224)中的另一个而被生成,所述第一语料库(220)包括来自一个或多个放射学报告的文本,所述第二语料库(224)不同于第一语料库(220)并且包括明语文本。


2.根据权利要求1所述的方法,其中所述第一数据包括第二词嵌入,所述第二词嵌入已经基于与已经基于其生成了第一词嵌入的第一语料库和第二语料库中之一相比的第一(220)和第二(224)语料库中的不同的那个而被生成,并且其中所述经修改的词嵌入(228)是已经通过基于第二词嵌入而修改第一词嵌入所生成的词嵌入(228)。


3.根据权利要求2所述的方法,其中所述经修改的词嵌入(228)是已经通过如下而被生成的词嵌入:对于针对给定词的给定词嵌入,连接针对给定词的第一词嵌入的向量与针对给定词的第二词嵌入的向量以产生针对给定词的经修改的向量。


4.根据权利要求1所述的方法,其中所述第一数据包括语义词典,所述语义词典已经基于与已经基于其生成了第一词嵌入的第一语料库(220)和第二语料库(224)中之一相比的第一(220)和第二语料库(224)中的不同的那个而被生成,并且其中经修改的词嵌入(228)是已经通过基于所述语义词典而修改第一词嵌入的向量的值所生成的词嵌入。


5.根据权利要求1至权利要求4中任...

【专利技术属性】
技术研发人员:许娟P沙马
申请(专利权)人:西门子医疗有限公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1