一种使用对抗自动编码器用于模型的连续训练的图像数据合成。提供了用于重新训练机器学习(ML)模型的系统和方法。示例可以自动标识真实世界输入数据中的偏斜、异常和/或漂移发生数据。通过自动标识此类数据,示例可以减少ML模型重新训练的主观性,并且减少确定是否需要重新训练ML模型所花费的时间。因此,可以由计算系统或设备根据计算机实现的指令客观地做出确定。此外,示例可以自动隔离与重新训练ML模型相关的数据并且将其传送到训练环境,以用于使用真实世界输入数据来重新训练ML模型。示例还合成大量数据样本以用于在重新训练ML模型时使用。合成数据可以基于隔离的数据和传送的数据来生成,并且可以被用来代替实际的真实世界输入数据以减少对应的延迟。实世界输入数据以减少对应的延迟。实世界输入数据以减少对应的延迟。
【技术实现步骤摘要】
使用对抗自动编码器用于模型的连续训练的图像数据合成
技术介绍
[0001]数据系统、平台和框架可以在数据输入上应用机器学习(ML)或其他模型或算法(在本文中被称为“ML模型”)以生成各种分析。通常,可以训练这些ML模型以基于在操作期间(即,当ML模型被放置在生产/推理环境中时)所接收的输入来生成输出。ML模型的训练可以涉及:向ML模型提供已知的训练数据,这些已知的训练数据产生已知的输出。这种训练可以教导ML模型基于特定输入来预测什么输出。为了使ML模型具有准确的性能,训练数据和操作数据(即,真实世界数据)可以共享被用来预测对应输出的各种特征(如本文中所使用的,数据特征可以指的是数据的独特属性或特性)。
附图说明
[0002]根据一个或多个不同的示例,参考以下附图详细描述了本公开。提供附图仅用于说明目的并且仅描绘了典型或示例。
[0003]图1是图示了根据本公开中描述的示例实现诸如连续ML模型重新训练的各种方面的推理和训练环境的示例功能流程图。
[0004]图2是图示了根据本公开中描述的示例在训练环境中利用训练数据来训练对抗自动编码器(AAE)和ML模型的功能流程图。
[0005]图3是图示了根据本公开中描述的示例的在训练环境中被训练并且在推理环境中被应用的AAE的功能流程图。
[0006]图4是图示了根据本公开中描述的示例在推理和训练环境中使用所训练的AAE,以确定何时重新训练ML模型并且生成用于重新训练ML模型的合成数据的功能流程图。
[0007]图5A至图5D描绘了根据本公开中描述的示例的对应于在推理环境中处理生产数据,以标识用于在重新训练ML模型时使用的数据的各种数据图。
[0008]图6A和图6B描绘了根据本公开中描述的示例的具有漂移的示例MNIST数字图像和用于训练AAE的合成图像。
[0009]图7描绘了根据本公开中描述的示例的示例流程图,其图示了(1)在训练环境中训练AAE和ML模型,(2)在推理环境中将AAE和ML模型应用于生产数据,以及(3)在训练环境中重新训练AAE和ML模型。
[0010]图8描绘了根据各种示例的可以被用来实现AAE训练和AAE的应用,以生成合成数据从而重新训练ML模型的示例计算系统。
[0011]图9描绘了根据各种示例的可以被用来实现ML模型训练的另一示例计算系统。
[0012]图10描绘了在其中可以实现本文描述的各种示例的示例计算机系统的框图。
[0013]附图不是详尽的并且不将本公开限制为所公开的精确形式。
具体实施方式
[0014]在人工智能(AI)和其他数据分析和处理环境中,用户可以采用一种或多种机器学习(ML)技术,诸如分类、回归、聚类等。用户可以构建ML模型以在推理环境中操作时生成分
析(诸如,输出预测)(如本文中所使用的,推理环境可以指的是ML模型接收真实世界输入数据的环境)。构建ML模型可以包括:利用已标记的数据来训练ML模型,以执行所期望的分析,诸如基于真实世界输入数据来生成输出数据。训练ML模型可以涉及教导ML模型如何基于真实世界输入数据来生成所期望的分析。
[0015]在已训练的ML模型的操作期间,诸如在推理环境中,可以将真实世界输入数据呈现给ML模型,并且ML模型可以基于其训练来生成输出预测。在真实世界输入数据与ML模型的训练数据相似的情况下,可以维持ML模型的准确性、性能等(在本文中被统称为“性能”)。但是,如果真实世界输入数据发生偏移或变化,以至于被用来训练ML模型的训练数据不再表示真实世界输入数据的分布,那么ML模型的准确性和性能可能降级。这种性能降级可能会限制ML模型在基于此类真实世界输入数据来生成预测方面的实用性。
[0016]AI和ML模型(在本文中被统称为“ML模型”)可以被用来诊断医疗保健环境中的各种状况,诸如诊断糖尿病视网膜病变分级、胸部疾病、癌症检测等。在许多这样的ML模型使用实例中,用户使用历史标记的数据来训练ML模型,并且使用类似的真实世界输入数据(ML模型尚未对其进行训练)来测试ML模型。当真实世界输入数据与历史标记训练数据相似时,这些ML模型表现良好。在医疗保健环境的一些示例中,历史标记训练数据可以包括已知的疾病数据。当真实世界输入数据包括已知的疾病数据时,ML模型可能表现良好。然而,当真实世界输入数据包含未知疾病数据时,ML模型的性能可能会受到负面影响,因为真实世界输入数据与历史标记的训练数据不同。在一些示例中,这样的变化可以对应于疾病数据随时间的变化,诸如其中真实世界输入数据对应于新的和/或罕见的疾病发生、由于隐私问题而受到限制的数据等。
[0017]在一些示例中,真实世界输入数据与训练数据之间的差异可能对应于一种或多种不一致性或由一种或多种不一致性来表示,诸如训练
‑
生产数据偏斜、数据收集和/或处理异常、数据漂移等等。为了补偿真实世界输入数据与训练数据之间的不一致性,可以使用图像合成和数据增强工具来重新训练ML模型。但是,此类工具通常是手动/迭代不利的,并且可能会将主观性引入到ML模型训练和操作中(例如,此类工具通常无法考虑生产数据动态,诸如,发生数据漂移时)。这些缺点可能导致ML模型的不正确训练或延迟的训练,并可能导致推理时的错误预测。
[0018]在上述医疗保健环境中,上述缺点可能导致不及时和不准确的诊断动作。例如,手动标识需要重新训练ML模型以及随后对ML模型进行迭代重新训练可能会使重新训练的显著延迟。在这种延迟期间,ML模型可能会提供不充分的预测。此外,基于如何确定需要重新训练ML模型,重新训练可能是主观的。例如,第一用户可能查看训练数据和真实世界输入数据,并且确定任何漂移或差异是最小的,从而确定不需要重新训练。但是,第二用户可能查看相同的训练和真实世界输入数据并且确定需要重新训练。因此,这种人工分析可能会引入主观性。
[0019]本文公开的系统和方法可以在重新训练ML模型时进行改进。作为第一点,所公开的技术可以自动标识真实世界输入数据中的偏斜、异常和/或漂移发生数据。这种偏斜、异常和/或漂移发生数据可以对应于训练数据与真实世界输入数据之间的变化和/或差异。通过自动标识此类数据,所公开的技术降低了ML模型重新训练中的主观性,并且改善(即减少)确定是否需要重新训练ML模型所花费的时间。例如,可以由计算系统或设备根据计算机
实现的指令客观地做出确定。作为进一步的改进,所公开的技术可以自动隔离与重新训练ML模型相关的数据。因此,只有这些相关数据可以被传送到训练环境,以用于根据真实世界输入数据来重新训练ML模型。在将ML模型应用于大量不断变化的数据的情况下,标识重新训练ML模型所需的数据(诸如,在训练数据与真实世界输入数据之间发生变化的数据)本身就是资源密集型过程。为了解决这个问题,所公开的技术合成大量数据样本,以用于在重新训练ML模型时使用(如本文中所使用的,合成数据/合成的数据可以指基于其他数据而被生成的数据;换而言之,合成数据/合成的数据可以指的是不是根据直接测量所获得的数据)本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种系统,包括:处理器;和存储器,被配置为存储指令,所述指令在由所述处理器执行时使所述处理器:针对要由模型处理的图像流,生成所述图像流的多维表示,所述多维表示将所述图像流的至少一个图像的特征与所述图像流的至少一个其他图像的特征相关联;基于所述多维表示来标识未知图像;基于所标识的所述未知图像来创建合成图像;以及利用包括所述合成图像的训练数据来重新训练所述模型。2.根据权利要求1所述的系统,其中所述图像流的所述多维表示包括:由所述处理器的编码器生成的所述图像流的潜在空间,所述编码器处理所述图像流。3.根据权利要求1所述的系统,其中使所述处理器标识未知图像的所述指令包括:使所述处理器在所述图像流的所述多维表示上生成聚类的指令,其中生成的所述聚类包括:已知图像的聚类,所述已知图像的聚类包括被用于训练所述模型的训练图像的阈值特征,以及不包括所述训练图像的所述阈值特征的所述未知图像的至少一个聚类,未知图像的所述至少一个聚类对应于所述未知图像。4.根据权利要求3所述的系统,其中使所述处理器创建所述合成图像的所述指令包括:使所述处理器执行以下操作的指令:标识针对未知图像的所述聚类的聚类密度;与所述聚类密度的密度计数成比例地对所述聚类密度进行加权;以及基于未知图像的加权的所述聚类密度来生成所述合成图像。5.根据权利要求4所述的系统,其中所述指令还使所述处理器将高斯混合模型应用于所述未知图像的所述聚类,以重建所述未知图像的所述聚类,以用于关于所述聚类密度进行进一步处理。6.根据权利要求3所述的系统,其中所述指令还使所述处理器向用户提供未知图像集。7.一种方法,包括:基于训练图像集来训练机器学习ML模型和对抗自动编码器AAE;接收用于由所述ML模型和所述AAE处理的图像流,所述图像流包括对应于所述训练图像集的图像和未知图像的图像,所述ML模型和所述AAE还未针对所述未知图像而被训练;根据基于所述图像流来生成潜在空间来检测所述未知图像;标识用于在重新训练所述ML模型时使用的所述潜在空间的区域,所述潜在空间的所述区域包括至少未知图像集;基于所述潜在空间的所标识的所述区域来生成新的潜在空间信息;基于所述新的潜在空间来生成合成图像;以及基于所述合成图像来重新训练所述ML模型。8.根据权利要求7所述的方法,其中所述潜在空间由所述AAE的编码器生成,所述编码器处理所述图像流。9.根据权利要求7所述的方法,其中检测所述未知图像包括:基于所述潜在空间来生成聚类,其中所述生成聚类包括:
已知图像的聚类,所述已知图像的聚类包括被用于训练所述ML模型的训练图像的阈值特征,以及不包括所述训练图像的所述阈值特征的所述未知图像的至少一个聚类,未知图像的所述至少一个聚类对应于所述未知图像。10.根据权利要求9所述的方法,其中基于所述潜在空间的所标识的所述区域来生成新的潜在空间信息包括:标识针对未知图像的所述聚类的聚类密度;以及与所述聚类密度的密度计数成比例地对...
【专利技术属性】
技术研发人员:S,
申请(专利权)人:慧与发展有限责任合伙企业,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。