当前位置: 首页 > 专利查询>奥多比公司专利>正文

文本到视觉机器学习嵌入技术制造技术

技术编号:26531097 阅读:24 留言:0更新日期:2020-12-01 14:11
本公开的实施例涉及文本到视觉机器学习嵌入技术。描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。这些技术包括:使用基于查询的训练数据,这可以扩展可用于训练模型的训练数据的可用性和类型。还描述了负数字图像样本的生成,所述生成可以在使用机器学习来训练模型时提高准确性。还描述了一种损失函数,所述损失函数也例如,分离地通过在正样本嵌入或者负样本嵌入与文本嵌入之间的损失来支持提高的准确性和计算效率。

【技术实现步骤摘要】
文本到视觉机器学习嵌入技术
本公开的实施例涉及数字图像领域,并且更具体地涉及数字图像机器学习嵌入技术。
技术介绍
为了返回准确的搜索结果,数字图像搜索系统面临许多技术挑战,特别是在涉及基于文本的搜索的实例中。例如,常规的数字图像搜索系统依赖于与数字图像相关联的图像标签,这些图像标签可以被手动指定或者自动推断,例如,使用基于机器学习的图像标签技术。因此,为了执行搜索,被包括在文本查询中的文本与关联于数字图像的标签相匹配。然而,这些常规的系统和技术容易出错,特别是当文本查询包括大量文本时,并且通常是由于缺少支持灵活的语言描述变化的能力。在一个常规示例中,包括文本“在海滩边抱着狗坐在椅子上的人”的文本查询被接收。基于标签的常规数字图像搜索系统通常返回具有也被包括在文本查询中的标签中的任何一个标签的搜索结果。因此,这些常规系统的用户通常面临只包括人、狗(狗可以包括犬或者食物)、椅子或者海滩的搜索结果。该搜索结果还与这些标签的子组合混合,例如,有狗的人、吃热狗的人、在海滩上的椅子等。进一步地,一些常规系统(例如,基于库存图像的搜索系统)甚至可能由于文本查询的长度而无法返回结果。因此,常规数字图像搜索系统可能需要用户手动浏览(navigate)搜索结果中的数百个数字图像以找到感兴趣的数字图像,可能迫使用户发起具有不同文本组合的大量搜索,等等。这由于浏览的效率低下以及数字图像搜索系统对用于传送、执行和重复这些搜索的网络和计算资源的使用的效率低下而导致用户感到沮丧。
技术实现思路
描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。在一个示例中,通过使用训练数据生成模块生成训练数据来执行这一点,该训练数据提高了使用机器学习而被训练的模型的准确性。例如,可以基于被用于发起搜索数字图像和从搜索结果中选择数字图像的文本查询来生成基于查询的训练数据。按照这种方式,可以针对大量数字图像和文本确定文本查询与数字图像的关联。还可以通过使用基于标题的训练数据来扩展对基于查询的训练数据的使用作为多任务学习的一部分,这通过限制在基于查询的训练数据中的噪声来提高训练准确性,并且支持使用长文本序列。训练数据生成模块还被配置为生成在使用机器学习来训练模型时提高准确性的负数字图像样本。通过生成以下负数字图像样本来执行这一点:该负数字图像样本具有与正数字图像样本相似的语义含义和/或视觉含义,但是不具有与正数字图像样本完全相同的组成部分。在一个示例中,通过从数字图像的子集中选择负数字图像样本来执行这一点,这些数字图像不止具有一个文本项,文本项不包括停用词,还被包括在与正数字图像样本相关联的文本中。在另一示例中,通过从数字图像的子集中选择负数字图像样本来执行这一点,这些数字图像不具有每个文本项,文本项不包括停用词,还被包括在与正数字图像样本相关联的文本中。然后,该训练数据可以被用于生成支持单个统一的文本和数字图像嵌入空间的模型,该模型被配置为将文本和数字图像视为同一实体,并且因此,克服了仅基于文本的常规技术的限制。还描述了一种利用损失函数来训练模型的机器学习训练模块。与常规的损失函数相比较,该损失函数通过以下方式来支持提高的准确性和计算效率:与在从负数字图像样本生成的负图像嵌入和以下文本嵌入之间计算出的损失分开地处理在从正数字图像样本生成的正图像嵌入与该文本嵌入之间计算出的损失:基于与正数字图像样本相关联的文本而计算出该文本嵌入。这允许在正图像嵌入与文本嵌入之间的距离随着时间的推移而减少(在训练期间),而在负图像嵌入与文本嵌入之间的距离增加,从而与常规的训练技术相比较,提高了模型准确性。本
技术实现思路
按照简化形式介绍了对构思的选择,下面在具体实施方式中进一步描述了这些构思。同样,本
技术实现思路
不旨在标识所要求保护的主题的本质特征,也不旨在被用于帮助确定所要求保护的主题的范围。附图说明参照附图描述了具体实施方式。在图中表示的实体可以指示一个或者多个实体,并且因此,在讨论中,可以互换地引用实体的单数形式或者复数形式。图1是示例实现中可操作以采用本文描述的文本到视觉机器学习嵌入技术的数字媒体环境的图示。图2描绘了在示例实现中的系统,其中服务提供方系统基于文本查询和与文本查询相关联的数字图像来生成基于查询的训练数据集。图3是描绘了在示例实现中的过程的流程图,其中训练数据集被用于使用机器学习来训练模型,训练数据集基于数字图像而被生成,并且文本查询被用于对数字图像进行定位作为搜索的一部分。图4描绘了在示例实现中的系统,其中生成训练数据集,该训练数据集包括基于正数字图像样本和相关联的文本而被选择的负数字图像样本。图5是描绘了在示例实现中的过程的流程图,其中基于对与负数字图像样本相关联的文本和与正数字图像样本相关联的文本的比较来生成负数字图像样本。图6描绘了在示例实现中的系统,该系统示出了机器学习训练模块基于以下训练数据集使用多任务训练来对模型进行多任务训练:基于查询的训练数据集和基于标题的训练数据集。图7描绘了更详细地示出了机器学习训练模块的在生成嵌入和使用损失函数时的操作的系统。图8描绘了更详细地示出了图7所示文本嵌入模块的以下操作的系统:从与正数字图像样本相关联的文本生成文本嵌入。图9描绘了在如本文描述的、常规的三元组损失与正感知三元组排序损失之间的图形比较。图10描绘了在示例实现中的过程,其中基于损失函数来训练模型,该损失函数与在文本嵌入和负图像嵌入之间的损失分开地解决在文本嵌入和正图像嵌入之间的损失。图11图示了包括示例设备的各种组件的示例系统,该示例设备可以被实现为如参照图1至图10描述的和/或利用的任何类型的计算设备以实现本文所描述的技术的实施例。具体实施方式概况为了返回准确的搜索结果,数字图像搜索系统面临许多技术挑战和计算挑战,特别是在涉及基于文本的搜索的实例中。为了使用常规的数字图像搜索系统来执行搜索,使被包括在文本查询中的文本与关联于数字图像的标签相匹配。然而,这些常规的系统和技术容易出错,特别是当文本查询包括大量文本时。这通常是由于常规系统缺少支持有关语言描述的变化(例如,作为食物项的“热狗”和作为喘气的狗的“感到热的狗”)的灵活性的能力以及缺少解决如何按顺序布置文本的能力。因此,常规的图像搜索系统可能需要用户浏览搜索结果中的数百个数字图像以找到感兴趣的数字图像,可能迫使用户发起具有不同文本组合的大量搜索,等等。这由于浏览的效率低下以及对用于传送和执行这些搜索的网络和计算资源的使用的效率低下而导致用户感到沮丧。在使被用于标识图像的标签的文本的基础含义相匹配时被用于表达文本查询的文本的可靠性进一步加剧了这种挑战,在一些实例中(例如,在描述由数字图像中的场景引起的情绪时),可能难以实现这种可靠性。因此,描述了克服常规系统和技术中的挑战的文本到视觉(即,语义的/视觉的)机器学习嵌入技术。这包括用于生成训练数据的技术以及可用于支持将数字图像和文本映射到单个统一的嵌入空间中以本文档来自技高网
...

【技术保护点】
1.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法,所述方法包括:/n由所述计算设备接收多个文本查询,所述多个文本查询被用于发起多次数字图像搜索;/n由所述计算设备接收多个数字图像,所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的;/n由所述计算设备基于所述多个文本查询和所述多个数字图像生成训练数据集;/n由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型;以及/n由所述计算设备使用所述模型来生成后续搜索结果。/n

【技术特征摘要】
20190530 US 16/426,2641.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法,所述方法包括:
由所述计算设备接收多个文本查询,所述多个文本查询被用于发起多次数字图像搜索;
由所述计算设备接收多个数字图像,所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的;
由所述计算设备基于所述多个文本查询和所述多个数字图像生成训练数据集;
由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型;以及
由所述计算设备使用所述模型来生成后续搜索结果。


2.根据权利要求1所述的方法,其中对所述模型的所述训练基于所述多个文本查询和所述多个数字图像而产生单个统一的文本和数字图像嵌入空间。


3.根据权利要求1所述的方法,其中所述训练数据集的所述生成包括:
从所述多个数字图像中选择正数字图像样本;以及
基于所述正数字图像样本来从所述多个数字图像生成负数字图像样本。


4.根据权利要求3所述的方法,其中所述负数字图像样本的所述生成包括:
通过不包括来自所述多个数字图像中的、具有相应的所述文本查询的至少一个文本项的数字图像来生成所述多个数字图像的子集,所述至少一个文本项不包括停用词,所述至少一个文本项还被包括在与所述正数字图像样本相关联的相应的所述文本查询中;以及
从所述子集中选择所述负数字图像样本。


5.根据权利要求1所述的方法,其中所述训练数据集的所述生成包括:生成基于标题的训练数据集,所述基于标题的训练数据集具有与对应的多个数字图像相关联的标题。


6.根据权利要求5所述的方法,其中所述基于标题的训练数据集的所述生成包括:
从所述对应的多个数字图像中选择正数字图像样本;以及
基于所述正数字图像样本,从所述对应的多个数字图像生成负数字图像样本。


7.根据权利要求6所述的方法,其中所述负数字图像样本的所述生成包括:
通过不包括来自所述对应的多个数字图像中的、具有每个文本项的数字图像来生成所述对应的多个数字图像的子集,所述文本项不包括停用词,所述文本项被包括在与所述正数字图像样本相关联的所述标题中;以及
从所述子集中选择所述负数字图像样本。


8.根据权利要求1所述的方法,其中所述训练包括:从正数字图像样本生成正图像嵌入,从与所述正数字图像样本相关联的所述文本查询生成文本嵌入,以及从负数字图像样本生成负图像嵌入。


9.根据权利要求8所述的方法,其中所述损失函数是三元组损失函数,所述三元组损失函数与所述文本嵌入和所述负图像嵌入之间的损失分离地解决所述文本嵌入和所述正图像嵌入之间的损失。


10.一种在数字媒体机器学习模型训练环境中的系统,包括:
训练数据生成模块,所述训练数据生成模块至少部分地被实现在硬件中以生成训练数据集,所述训练数据生成模块包括:
正样本生成模块,所述正样本生成模块被配置为从多个数字图像中选择正数字图像样本;以及
负样本生成模块,所述负样本生成模块被配置为:
生成所述多个数字图像的子集...

【专利技术属性】
技术研发人员:林哲S·莫蒂安P·阿加沃尔B·法伊塔
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1