文本到视觉机器学习嵌入技术制造技术

技术编号：26531097 阅读：24 留言：0更新日期：2020-12-01 14:11

本公开的实施例涉及文本到视觉机器学习嵌入技术。描述了按照各种方式来克服常规技术中的挑战的文本到视觉机器学习嵌入技术。这些技术包括：使用基于查询的训练数据，这可以扩展可用于训练模型的训练数据的可用性和类型。还描述了负数字图像样本的生成，所述生成可以在使用机器学习来训练模型时提高准确性。还描述了一种损失函数，所述损失函数也例如，分离地通过在正样本嵌入或者负样本嵌入与文本嵌入之间的损失来支持提高的准确性和计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本到视觉机器学习嵌入技术
本公开的实施例涉及数字图像领域，并且更具体地涉及数字图像机器学习嵌入技术。
技术介绍
为了返回准确的搜索结果，数字图像搜索系统面临许多技术挑战，特别是在涉及基于文本的搜索的实例中。例如，常规的数字图像搜索系统依赖于与数字图像相关联的图像标签，这些图像标签可以被手动指定或者自动推断，例如，使用基于机器学习的图像标签技术。因此，为了执行搜索，被包括在文本查询中的文本与关联于数字图像的标签相匹配。然而，这些常规的系统和技术容易出错，特别是当文本查询包括大量文本时，并且通常是由于缺少支持灵活的语言描述变化的能力。在一个常规示例中，包括文本“在海滩边抱着狗坐在椅子上的人”的文本查询被接收。基于标签的常规数字图像搜索系统通常返回具有也被包括在文本查询中的标签中的任何一个标签的搜索结果。因此，这些常规系统的用户通常面临只包括人、狗(狗可以包括犬或者食物)、椅子或者海滩的搜索结果。该搜索结果还与这些标签的子组合混合，例如，有狗的人、吃热狗的人、在海滩上的椅子等。进一步地，一些常规系统(例如，基于库存图像的搜索系统)甚至可能由于文本查询的长度而无法返回结果。因此，常规数字图像搜索系统可能需要用户手动浏览(navigate)搜索结果中的数百个数字图像以找到感兴趣的数字图像，可能迫使用户发起具有不同文本组合的大量搜索，等等。这由于浏览的效率低下以及数字图像搜索系统对用于传送、执行和重复这些搜索的网络和计算资源的使用的效率低下而导致用户感到沮丧。
技术实现思路
描述了按照各种方式来克服...

【技术保护点】
1.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法，所述方法包括：/n由所述计算设备接收多个文本查询，所述多个文本查询被用于发起多次数字图像搜索；/n由所述计算设备接收多个数字图像，所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的；/n由所述计算设备基于所述多个文本查询和所述多个数字图像生成训练数据集；/n由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型；以及/n由所述计算设备使用所述模型来生成后续搜索结果。/n

【技术特征摘要】
20190530 US 16/426,2641.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法，所述方法包括：
由所述计算设备接收多个文本查询，所述多个文本查询被用于发起多次数字图像搜索；
由所述计算设备接收多个数字图像，所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的；
由所述计算设备基于所述多个文本查询和所述多个数字图像生成训练数据集；
由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型；以及
由所述计算设备使用所述模型来生成后续搜索结果。

2.根据权利要求1所述的方法，其中对所述模型的所述训练基于所述多个文本查询和所述多个数字图像而产生单个统一的文本和数字图像嵌入空间。

3.根据权利要求1所述的方法，其中所述训练数据集的所述生成包括：
从所述多个数字图像中选择正数字图像样本；以及
基于所述正数字图像样本来从所述多个数字图像生成负数字图像样本。

4.根据权利要求3所述的方法，其中所述负数字图像样本的所述生成包括：
通过不包括来自所述多个数字图像中的、具有相应的所述文本查询的至少一个文本项的数字图像来生成所述多个数字图像的子集，所述至少一个文本项不包括停用词，所述至少一个文本项还被包括在与所述正数字图像样本相关联的相应的所述文本查询中；以及
从所述子集中选择所述负数字图像样本。

5.根据权利要求1所述的方法，其中所述训练数据集的所述生成包括：生成基于标题的训练数据集，所述基于标题的训练数据集具有与对应的多个数字图像相关联的标题。

6.根据权利要求5所述的方法，其中所述基于标题的训练数据集的所述生成包括：
从所述对应的多个数字图像中选择正数字图像样本；以及
基于所述正数字图像样本，从所述对应的多个数字图像生成负数字图像样本。

7.根据权利要求6所述的方法，其中所述负数字图像样本的所述生成包括：
通过不包括来自所述对应的多个数字图像中的、具有每个文本项的数字图像来生成所述对应的多个数字图像的子集，所述文本项不包括停用词，所述文本项被包括在与所述正数字图像样本相关联的所述标题中；以及
从所述子集中选择所述负数字图像样本。

8.根据权利要求1所述的方法，其中所述训练包括：从正数字图像样本生成正图像嵌入，从与所述正数字图像样本相关联的所述文本查询生成文本嵌入，以及从负数字图像样本生成负图像嵌入。

9.根据权利要求8所述的方法，其中所述损失函数是三元组损失函数，所述三元组损失函数与所述文本嵌入和所述负图像嵌入之间的损失分离地解决所述文本嵌入和所述正图像嵌入之间的损失。

10.一种在数字媒体机器学习模型训练环境中的系统，包括：
训练数据生成模块，所述训练数据生成模块至少部分地被实现在硬件中以生成训练数据集，所述训练数据生成模块包括：
正样本生成模块，所述正样本生成模块被配置为从多个数字图像中选择正数字图像样本；以及
负样本生成模块，所述负样本生成模块被配置为：
生成所述多个数字图像的子集...

【专利技术属性】
技术研发人员：林哲，S·莫蒂安，P·阿加沃尔，B·法伊塔，
申请(专利权)人：奥多比公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人