当前位置: 首页 > 专利查询>脸谱公司专利>正文

在线社交网络上利用图和紧致回归码的快速索引制造技术

技术编号:25718189 阅读:46 留言:0更新日期:2020-09-23 03:02
在一个实施例中,一种方法包括接收包括查询内容对象和约束的查询,生成表示查询内容对象的特征向量,访问包括对应于由紧致码表示的候选内容对象的节点和连接这些节点的链接的稀疏图,选择入口节点,通过以下操作来迭代地选择相似内容对象:识别入口节点的链接节点,解压缩表示候选内容对象的紧致码以生成特征向量,基于表示查询内容对象的特征向量和表示候选内容对象的特征向量之间的比较来选择零个或更多个相似内容对象,如果满足完成条件,则返回所选择的相似内容对象,否则通过使用对应于最相似内容对象的链接节点作为入口节点来重复该迭代选择,以及发送用于呈现一个或更多个所选择的相似内容对象的指令。

【技术实现步骤摘要】
【国外来华专利技术】在线社交网络上利用图和紧致回归码的快速索引
本公开总体上涉及网络环境中的数据库和文件管理,并且尤其涉及在社交网络环境中执行对象搜索。背景可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它互动以及通过它彼此互动。社交网络系统可以利用来自用户的输入来创建并在社交网络系统中存储与用户相关联的用户简档(userprofile)。用户简档可以包括人口统计信息、通信渠道信息以及关于用户的个人兴趣的信息。社交网络系统还可以用来自用户的输入来创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,发帖墙(wallpost)、照片分享、事件组织、消息传送、游戏或广告)以便于在用户之间或当中的社交互动。社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇总动态(story)的动态消息(newsfeed)。社交图分析从由节点和边组成的网络理论方面来看待社交关系。节点表示网络中的单独参与者,以及边表示在参与者之间的关系。由此产生的基于图的结构常常是非常复杂的。可以有很多类型的节点和用于连接节点的很多类型的边。在它的最简单的形式中,社交图是在所有被研究的节点之间的所有相关边的布局图。特定实施例的概述在特定实施例中,社交网络系统可以响应于用户查询来执行内容对象的相似性搜索。基于图游走(graphwalk)的相似性搜索方法最近在速度和精度之间取得了突出的折衷,抛开了存储器需求。在本文公开的实施例中,通过另外考虑在单个服务器上索引数十亿个内容对象(例如,图像)所需的存储器约束,重新考虑这些方法。在特定实施例中,社交网络系统可以利用一种方法,即链接和代码(L&C),该方法基于相似性搜索的紧致(compact)表示和图遍历(graphtraversal)。L&C方法可以使用量化来对索引向量进行编码,并利用图结构来细化相似性估计。本质上,L&C方法可以充分利用这两个世界:搜索策略是基于嵌套图,从而利用相对较小的一组比较提供了高精度。同时,它可以提供显著的存储器压缩。因此,考虑到每个向量64-128字节,L&C方法在操作点上可以优于现有技术,20亿规模的公共基准(publicbenchmark)上的实验结果证明了这一点。尽管本公开描述了以特定方式用于特定相似性搜索的特定方法,但是本公开设想了以任何适当方式用于任何适当相似性搜索的任何适当方法。在特定实施例中,社交网络系统可以接收搜索查询。搜索查询可以包括查询内容对象和一个或更多个查询约束。社交网络系统然后可以生成表示查询内容对象的特征向量。在特定实施例中,社交网络系统可以访问稀疏图,该稀疏图包括对应于多个候选内容对象的多个节点和连接这些节点的多个链接。连接到任何特定节点的链接的数量可以少于链接的阈值数量,并且每个候选内容对象可以由紧致码(compactcode)表示。在特定实施例中,社交网络系统可以从稀疏图的多个节点中选择入口节点(entrynode)。社交网络系统然后可以从多个候选内容对象中选择关于查询内容对象的一个或更多个相似内容对象。在特定实施例中,一个或更多个相似内容对象可以通过以下过程被迭代地选择。社交网络系统可以首先识别入口节点的一个或更多个链接节点。每个链接节点可以通过链接连接到入口节点。社交网络系统然后可以针对对应于链接节点的每个候选内容对象,解压缩表示候选内容对象的紧致码,以生成表示候选内容对象的特征向量。社交网络系统然后可以基于表示查询内容对象的特征向量和表示候选内容对象的特征向量之间的比较,从候选内容对象中选择零个或更多个相似内容对象。社交网络系统然后可以确定对于一个或更多个相似内容对象的选择是否满足完成条件。可以基于一个或更多个查询约束来确定完成条件。基于该确定,如果满足完成条件,则社交网络系统然后可以返回一个或更多个所选择的相似内容对象;如果不满足完成条件,则社交网络系统可以通过使用来自一个或更多个链接节点的对应于最相似内容对象的链接节点作为入口节点来重复该迭代选择。在特定实施例中,社交网络系统还可以响应于接收到搜索查询,向与用户相关联的客户端系统发送用于呈现一个或更多个所选择的相似内容对象的指令。实现基于图和代码的相似性搜索的目标存在某些技术挑战。一个技术挑战可以包括构建有助于高效搜索的稀疏图。由本文公开的实施例提出的解决上述挑战的解决方案是基于一个或更多个机器学习算法生成链接,因为连接到任何特定节点的链接的数量少于阈值数量,从而导致具有明显少于传统图的链接的稀疏图。另一个技术挑战可以包括重建表示候选内容对象的可靠特征向量。由本文公开的实施例提出的解决该挑战的解决方案是细化(refinement)和回归码本(regressioncodebook),其可以利用图连通性(connectivity)并最小化重建误差,从而使得重建的特征向量更准确地表示候选内容对象。本文公开的某些实施例可以提供一个或更多个技术优势。实施例的技术优势可以包括在执行相似性搜索时由于基于候选内容对象的紧致表示和图遍历策略的利用的有限的存储器占用(memoryfootprint),改善存储器和精度之间的折衷。实施例的另一个技术优势可以包括在相似性搜索期间对于图的聚类(cluster)中的入口节点提高所选择的候选内容对象的多样性,连接的节点包括短程链接节点(更类似于入口节点)和长程链接节点(不太类似于入口节点)。本文公开的某些实施例可以不提供、提供一些或全部上述技术优势。鉴于本公开的附图、说明书和权利要求,一个或更多个其他技术优势对于本领域技术人员来说可能是十分明显的。本文公开的实施例仅仅是示例,并且本公开的范围不限于它们。特定实施例可以包括本文公开的实施例的组件、元件、特征、功能、操作或步骤中的所有、一些或不包括它们。根据本专利技术的实施例在涉及方法、存储介质和系统的所附权利要求中被具体公开,其中在一个权利要求类别(例如方法)中提到的任何特征可以在另一个权利要求类别(例如存储介质、系统、计算机程序产品)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而,也可以要求保护由对任何前面的权利要求的有意往回引用(特别是多项引用)而产生的任何主题,使得权利要求及其特征的任何组合被公开并且可被要求保护,而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合,而且还包括在权利要求中的特征的任何其他组合,其中,在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外,本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。在一个实施例中,一种方法可以包括,由一个或更多本文档来自技高网...

【技术保护点】
1.一种方法,包括由一个或更多个计算系统:/n接收搜索查询,其中,所述搜索查询包括查询内容对象和一个或更多个查询约束;/n生成表示所述查询内容对象的特征向量;/n访问稀疏图,所述稀疏图包括对应于多个候选内容对象的多个节点和连接所述节点的多个链接,其中,连接到任何特定节点的链接的数量小于链接的阈值数量,并且其中,每个候选内容对象由紧致码表示;/n从所述稀疏图的多个节点中选择入口节点;/n从所述多个候选内容对象中选择关于所述查询内容对象的一个或更多个相似内容对象,其中,所述一个或更多个相似内容对象通过以下方式被迭代地选择:/n识别所述入口节点的一个或更多个链接节点,其中,每个链接节点通过链接连接到所述入口节点;/n对于对应于所述链接节点的每个候选内容对象,解压缩表示所述候选内容对象的紧致码,以生成表示所述候选内容对象的特征向量;/n基于表示所述查询内容对象的特征向量和表示所述候选内容对象的特征向量之间的比较,从所述候选内容对象中选择零个或更多个相似内容对象;/n确定是否达到选择所述一个或更多个相似内容对象的完成条件,其中,基于所述一个或更多个查询约束来确定所述完成条件;和/n基于所述确定:/n如果满足所述完成条件,则返回一个或更多个所选择的相似内容对象;否则/n如果不满足所述完成条件,则通过使用来自所述一个或更多个链接节点的对应于最相似内容对象的链接节点作为所述入口节点来重复迭代选择;和/n响应于接收到所述搜索查询,向与用户相关联的客户端系统发送用于呈现一个或更多个所选择的相似内容对象的指令。/n...

【技术特征摘要】
【国外来华专利技术】20171211 US 62/597,012;20181210 US 16/215,3221.一种方法,包括由一个或更多个计算系统:
接收搜索查询,其中,所述搜索查询包括查询内容对象和一个或更多个查询约束;
生成表示所述查询内容对象的特征向量;
访问稀疏图,所述稀疏图包括对应于多个候选内容对象的多个节点和连接所述节点的多个链接,其中,连接到任何特定节点的链接的数量小于链接的阈值数量,并且其中,每个候选内容对象由紧致码表示;
从所述稀疏图的多个节点中选择入口节点;
从所述多个候选内容对象中选择关于所述查询内容对象的一个或更多个相似内容对象,其中,所述一个或更多个相似内容对象通过以下方式被迭代地选择:
识别所述入口节点的一个或更多个链接节点,其中,每个链接节点通过链接连接到所述入口节点;
对于对应于所述链接节点的每个候选内容对象,解压缩表示所述候选内容对象的紧致码,以生成表示所述候选内容对象的特征向量;
基于表示所述查询内容对象的特征向量和表示所述候选内容对象的特征向量之间的比较,从所述候选内容对象中选择零个或更多个相似内容对象;
确定是否达到选择所述一个或更多个相似内容对象的完成条件,其中,基于所述一个或更多个查询约束来确定所述完成条件;和
基于所述确定:
如果满足所述完成条件,则返回一个或更多个所选择的相似内容对象;否则
如果不满足所述完成条件,则通过使用来自所述一个或更多个链接节点的对应于最相似内容对象的链接节点作为所述入口节点来重复迭代选择;和
响应于接收到所述搜索查询,向与用户相关联的客户端系统发送用于呈现一个或更多个所选择的相似内容对象的指令。


2.根据权利要求1所述的方法,其中,所述一个或更多个查询约束包括以下项中的一个或更多个:
存储器利用率或CPU利用率约束;
选择精度约束;或者
搜索查询处理时间约束。


3.根据权利要求1所述的方法,其中,所述稀疏图的多个链接由一个或更多个机器学习算法生成。


4.根据权利要求1所述的方法,其中,基于一种或更多种编码来生成每个候选内容对象的紧致码。


5.根据权利要求4所述的方法,其中,所述一种或更多种编码包括乘积量化器或优化乘积量化器中的一个或更多个。


6.根据权利要求1所述的方法,其中,所述稀疏图中的每个节点与候选内容对象的聚类相关联,其中,候选对象的每个聚类与特征向量相关联。


7.根据权利要求6所述的方法,从所述稀疏图的多个节点中选择所述入口节点包括:
基于表示所述查询内容对象的特征向量和表示候选内容对象的所述聚类的特征向量之间的比较来选择所述入口节点。


8.根据权利要求1所述的方法,其中,解压缩表示每个候选内容对象的紧致码是基于以下项中的一个或更多个:
细化,所述细化基于表示所述候选内容对象的紧致码和与对应于所述候选内容对象的节点的一个或更多个链接节点相关联的一个或更多个紧致码;或者
表示所述候选内容对象的紧致码和包括多个回归权重向量的回归码本。


9.根据权利要求8所述的方法,其中,所述细化基于一个或更多个损失函数,并且其中,所述一个或更多个损失函数将表示所述候选内容对象的特征向量和与所述候选内容对象相关联的代码矩阵相关联,其中,所述代码矩阵包括表示所述候选内容对象的紧致码和与对应于所述候选内容对象的节点的链接节点相关联的紧致码。


10.根据权利要求8所述的方法,其中,基于所述多个候选内容对象和一个或更多个损失函数来学习所述回归码本。


11.根据权利要求10所述的方法,其中,所述回归码本包括每个候选内容对象的一组量化回归系数,并且其中,生成表示每个候选内容对象的特征向量还基于所述一组量化回归系数。


12.根据权利要求1所述的方法,其中,所述查询内容对象包括文本、音频剪辑、图像或视频剪辑中的一个或更多个。


13.根据权利要求1所述的方法,其中,表示所述查询内容对象的特征向量是基于一个或更多个机器学习算法生成的,并且其中,所述一个或更多个机器学习算法基于卷积神经网络。


14.根据权利要求1所述的方法,其中,所述入口节点的一个或更多个链接节点包括一个或更多个短程链接节点和至少一个长程链接节点。


15.根据权利要求14所述的方法,其中,所述一个或更多个短程链接节点中的每一个相对于所述入口节点具有大于或等于阈值水平的相似性水平。


16.根据权利要求14所述的方法,其中,所述至少一个长程链接节点相对于所述入口节点具有小于阈值水平的相似性水平。


17.根据权利要求1所述的方法,其中,基于所述一个或更多个查询约束来确定所述完成条件。


18.一个或更多个体现软件的计算机可读非暂时性存储介质,所述软件在被执行时能够操作来:
接收搜索查询,其中,所述搜索查询包括查询内容对象和一个或更多个查询约束;
生成表示所述查询内容对象的特征向量;
访问稀疏图,所述稀疏图包括对应于多个候选内容对象的多个节点和连接所述节点的多个链接,其中,连接到任何特定节点的链接的数量小于链接的阈值数量,并且其中,每个候选内容对象由紧致码表示;
从所述稀疏图的多个节点中选择入口节点;
从所述多个候选内容对象中选择关于所述查询内容对象的一个或更多个相似内容对象,其中,所述一个或更多个相似内容对象通过以下方式被迭代地选择:
识别所述入口节点的一个或更多个链接节点,其中,每个链接节点通过链接连接到所述入口节点;
对于对应于所述链接节点的每个候选内容对象,解压缩表示所述候选内容对象的紧致码,以生成表示所述候选内容对象的特征向量;
基于表示所述查询内容对象的特征向量和表示所述候选内容对象的特征向量之间的比较,从所述候选内容对象中选择零个或更多个相似内容对象;
确定是否满足选择所述一个或更多个相似内容对象的完成条件,其中,基于所述一个或更多个查询约束来确定所述完成条件;和
基于所述确定:
如果满足所述完成条件,则返回一个或更多个所选择的相似内容对象;否则
如果不满足所述完成条件,则通过使用来自所述一个或更多个链接节点的对应于最相似内容对象的链接节点作为所述入口节点来重复迭代选择;和
响应于接收到所述搜索查询,向与用户相关联的客户端系统发送用于呈现一个或更多个所选择的相似内容对象的指令。


19.一种系统,包括:一个或更多个处理器;以及耦合到所述处理器的非暂时性存储器,所述非暂时性存储器包括能够由所述处理器执行的指令,在执行所述指令时,所述处理器能够操作来:
接收搜索查询,其中,所述搜索查询包括查询内容对象和一个或更多个查询约束;
生成表示所述查询内容对象的特征向量;
访问稀疏图,所述稀疏图包括对应于多个候选内容对象的多个节点和连接所述节点的多个链接,其中,连接到任何特定节点的链接的数量小于链接的阈值数量,并且其中,每个候选内容对象由紧致码表示;
从所述稀疏图的多个节点中选择入口节点;
从所述多个候选内容对象中选择关于所述查询内容对象的一个或更多个相似内容对象,其中,所述一个或更多个相似内容对象通过以下方式被迭代地选择:
识别所述入口节点的一个或更多个链接节点,其中,每个链接节点通过链接连接到所述入口节点;
对于对应于所述链接节点的每个候选内容对象,解压缩表示所述候选内容对象的紧致码,以生成表示所述候选内容对象的特征向量;
基于表示所述查询内容对象的特征向量和表示所述候选内容对象的特征向量之间的比较,从所述候选内容对象中选择零个或更多个相似内容对象;
确定是否达到了选择所述一个或更多个相似内容对象的完成条件,其中,基于所述一个或更多个查询约束来确定所述完成条件;和
基于所述确定:
如果满足所述完成条件,则返回一个或更多个所选择的相似内容对象;否则
如果不满足所述完成条件,则通过使用来自所述一个或更多个链接节点的对应于最相似内容对象的链接节点作为所述入口节点来重复迭代选择;和
响应于接收到所述搜索查询,向与用户相关联的客户端系统发送用于呈现一个或更多个所选择的...

【专利技术属性】
技术研发人员:马蒂斯·杜兹亚历山大·萨布利罗勒斯埃尔韦·耶古
申请(专利权)人:脸谱公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1