信息向量化方法与计算机可读存储介质技术

技术编号:23497958 阅读:24 留言:0更新日期:2020-03-13 13:06
本公开提供了一种信息向量化方法与计算机可读存储介质。该信息向量化方法包括:获取多个实体之间的行为或联系信息;根据所述信息得到所述信息的关系数据;根据所述关系数据,形成所述多个实体中一个或多个实体的向量表示。通过本公开实施例,可以系统、完善地利用完整的关系数据来对信息进行向量化,使得实体的向量表示更加准确。

Information vectorization and computer readable storage medium

【技术实现步骤摘要】
信息向量化方法与计算机可读存储介质
本公开涉及数据处理
,具体涉及一种信息向量化方法与装置、机器设备和计算机可读存储介质。
技术介绍
在数据挖掘、机器学习等很多领域中,信息向量化表示是很多算法的关键基础,如何能够把用户信息和内容信息以向量的形式准确表达出来是学习效果及后续应用的重要保证。特别是在互联网时代,内容信息和用户信息急剧丰富,如何有效地利用这些海量数据,将这些信息准确地向量化,是很多场景面临的问题。现有的常见信息向量化方法一般有如下两种:一种方式是通过内容语义的方式,把内容语义直接进行抽象或者归一化转换,这种方式主要用于物品信息表达;一种方式是通过分析行为数据的方式,通过对用户行为数据的分析,简单地把用户行为转化为预先设置的类别,通过对用户进行分类并使用用户的类别来表征用户。现有技术的缺点和问题也比较明显。首先,通过内容语义的方式来向量化信息的方法对于语义抽象和归一化有着很高的技术难度,在一些关键问题上可能存在内容语义的偏差和歧义问题,会造成对物品信息刻画的不准确。例如,苹果既可以指水果又可以指手机。其次,单纯通过分析行为来把用户分类识别的方法存在类别定义的问题。每个领域的分类类别需要专业相关人士进行定义,不利于算法的可扩展性。另外分类类别定义的粗细程度也会造成一定的信息丢失问题。对海量数据信息无法有效利用,很难把信息完整准确地表示出来,往往会造成机器学习不充分,算法训练有偏等问题。
技术实现思路
本公开的目的之一在于提供一种信息向量化方法与装置、互动图谱形成方法与装置、机器设备和计算机可读存储介质。根据本公开实施例的第一方面,公开了一种信息向量化方法,其包括:获取多个实体之间的行为或联系信息;根据所述信息得到所述信息的关系数据;根据所述关系数据,形成所述多个实体中一个或多个实体的向量表示。根据本公开实施例的第二方面,公开了一种信息向量化装置,其包括:信息获取模块,其被配置为:获取多个实体之间的行为或联系信息;关系数据确定模块,其被配置为:根据所述信息得到所述信息的关系数据;向量表示模块,其被配置为:根据所述关系数据,形成所述多个实体中一个或多个实体的向量表示。根据本公开实施例的第三方面,公开了一种形成互动图谱的方法,其中,所述互动图谱包括节点和节点之间的连线,所述方法包括:获取多个实体之间的行为或联系信息;根据所述信息确定所述多个实体两两之间的关系;将所述多个实体中的每个实体表示为互动图谱的一个节点,并以具有关系的两个实体的相应节点之间的连线来表示所述关系,以形成互动图谱。根据本公开实施例的第四方面,公开了一种机器设备,其包括处理器以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述各实施例的方法。根据本公开实施例的第五方面,公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述各实施例的方法。本公开的实施例提供的技术方案可以具有以下有益效果:在本公开各实施例的一个或多个中,根据实体间的交互行为或联系信息而得出该信息的关系数据,通过将关系数据记录成结构化数据形式的互动图谱,能够结构化地呈现实体之间的关系,使得实体之间的关系更直观,更易于理解,并且结构化的数据记录方式更便于后续对关系数据的利用。在一些实施例中,在根据所搜集的有关实体的信息对实体进行向量表示时,全面、系统地利用该信息中所包含的实体间的关系数据,使得实体的向量表示更准确。在一些实施例中,在进行实体的向量表示时,将实体间的关系数据结合到实体的表示中,根据关系数据得到实体的环境向量表示,作为实体的向量表示的一部分,使得实体的向量表示更准确。在一些实施例中,将实体间的关系数据与随机游走算法相结合,得到多个实体表示序列,并通过词向量转换模型得到每个实体的向量表示,使得实体的向量表示更准确。在一些实施例中,将关系数据与语义表示相结合得到的实体向量表示或关系数据与随机游走算法相结合得到的实体向量表示输入神经网络,通过神经网络的特征提取和信息重表示,使得实体向量表示具有向量空间一致性。本公开的以上以及其他特性和优点将通过下面的详细描述变得清楚,或部分地通过本公开的实践而习得。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明通过参照附图对本公开示例性实施例的详细描述,本公开的上述和其它目标、特征及优点将变得清楚。本公开的附图被并入说明书中并构成本说明书的一部分。附图示例性地示出了适合本公开的实施例,并与说明书一起用于解释本公开的原理。图1示出根据本公开一示例性实施例的本公开所涉及的实施环境的示意图。图2示出根据本公开一示例性实施例的信息向量化方法的示意流程图。图3示出图2所示的信息向量化方法实施例的步骤S210的一示例性具体实施方式的流程示意图。图4示出图2所示的信息向量化方法实施例的步骤S220的一示例性具体实施方式的流程示意图。图5示出图4对应的实施例中步骤S420的一示例性具体实施方式的示意流程图。图6示出根据本公开一示例性实施例的以关系列表的形式记录的关系数据的示意图。图7示出根据本公开一示例性实施例的以互动图谱的形式记录的关系数据的示意图。图8示出根据本公开一示例性实施例的互动图谱形成方法的示意流程图。图9示出图2所示的信息向量化方法实施例的步骤S230的一示例性具体实施方式的流程示意图。图10示出图9所示的信息向量化方法实施例的步骤S920的一示例性具体实施方式的流程示意图。图11示出图10所示的信息向量化方法实施例的步骤S1010的一示例性具体实施方式的流程示意图。图12示出图2所示的信息向量化方法实施例的步骤S230的另一示例性具体实施方式的流程示意图。图13示出根据本公开一示例性实施例的在步骤S930或步骤S1240之后信息向量化方法还可以包括的步骤的流程示意图。图14示出根据本公开一示例性实施例的神经网络对输入的实体向量表示进行重表示的示意图。图15示出根据本公开一示例性实施例的信息向量化装置的示意组成框图。图16示出根据本公开一示例性实施例的形成互动图谱的装置的示意组成框图。图17示出根据本公开一示例性实施例的机器设备的示意组成框图。具体实施方式现在将参考附图更全面地描述本公开的示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式目的是使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式本文档来自技高网...

【技术保护点】
1.一种信息向量化方法,其特征在于,包括:/n获取多个实体之间的行为或联系信息;/n根据所述信息得到所述信息的关系数据;/n根据所述关系数据,形成所述多个实体中一个或多个实体的向量表示。/n

【技术特征摘要】
1.一种信息向量化方法,其特征在于,包括:
获取多个实体之间的行为或联系信息;
根据所述信息得到所述信息的关系数据;
根据所述关系数据,形成所述多个实体中一个或多个实体的向量表示。


2.根据权利要求1所述的方法,其特征在于,所述根据所述信息得到所述信息的关系数据包括:
从所述信息中识别出所述多个实体;
根据所述信息所记录的所述多个实体之间的行为或联系,确定所述多个实体两两之间的关系;
记录所述多个实体两两之间所具有的关系,作为所述信息的关系数据。


3.根据权利要求2所述的方法,其特征在于,所述记录所述多个实体两两之间所具有的关系,作为所述信息的关系数据包括:
将所述多个实体两两之间所具有的关系记录成结构化数据,作为所述信息的关系数据。


4.根据权利要求3所述的方法,其特征在于,所述将所述多个实体两两之间所具有的关系记录成结构化数据包括:
将所述多个实体中的每个实体表示为一个节点,并以具有关系的两个实体的相应节点之间的连线来表示所述关系,以形成互动图谱。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述关系数据,形成所述多个实体中一个或多个实体的向量表示包括:
对于所述多个实体中的每个待向量化的目标实体:
根据所述关系数据,确定所述多个实体中与该目标实体在第一预定跳数内具有直接或间接关系的实体,作为该目标实体的关联实体;
计算该目标实体的关联实体的初始向量表示的加权平均值,作为该目标实体的环境向量表示;
将该目标实体的初始向量表示与环境向量表示共同作为该目标实体的向量表示,
其中,所述跳数是指:沿着所述多个实体两两之间的关系,从所述多个实体中的一个实体到与该实体具有直接或间接关系的另一实体所经过的关系的条数。


6.根据权利要求5所述的方法,其特征在于,所述计算该目标实体的关联实体的初始向量表示的加权平均值包括:
确定该目标实体的关联实体中每个关联实体的初始向量表示Wi;
根据如下公式计算所述每个关联实体的权重系数αi:

【专利技术属性】
技术研发人员:徐聪马明远
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1