数据处理方法、装置、电子设备和介质制造方法及图纸

技术编号:35647857 阅读:13 留言:0更新日期:2022-11-19 16:41
本公开的实施例涉及数据处理方法、装置、电子设备和介质。该方法包括获取第一应用的多个用户的特征表示集合。该方法还包括基于特征表示集合,确定特征表示集合的第一聚类结果和第二聚类结果。该方法还包括将第一聚类结果和第二聚类结果发送到与第一应用不同的第二应用。通过本公开的实施例可以在迁移用户数据时无需直接迁移数量庞大的用户数据,而是迁移用户数据的聚类结果。通过这种方式,使得被迁移的数据量减少,并且因此减少硬件资源的开销和数据迁移所需的时间。数据迁移所需的时间。数据迁移所需的时间。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和介质


[0001]本公开的实施例涉及计算机领域,并且更具体地,涉及数据处理方法、装置、电子设备和介质。

技术介绍

[0002]随着互联网技术的发展,互联网产品的类型已经非常丰富,形成了互联网产品矩阵。例如,新闻产品、音乐产品、社交产品、影视产品等。用户在使用这些互联网产品矩阵中的各个产品时,都可以共享使用同一账号。
[0003]同时,随着深度学习技术的发展,很多互联网产品都已经使用了深度学习模型。在一些互联网产品(例如,手机应用)的深度学习模型中,用户的数目庞大,并且与每个用户相关联的数据也非常多。由于数据量大且数据类型多,在互联网产品矩阵之间迁移这些海量数据时,往往面临很多困难。

技术实现思路

[0004]本公开的实施例提供了一种数据处理方法、装置、电子设备和计算机可读存储介质。
[0005]根据本公开的第一方面,提供了一种数据处理方法。该方法包括获取第一应用的多个用户的特征表示集合。该方法还包括基于特征表示集合,确定特征表示集合的第一聚类结果和第二聚类结果。该方法还包括将第一聚类结果和第二聚类结果发送到与第一应用不同的第二应用。
[0006]根据本公开的第二方面,提供了一种数据处理装置。该装置包括特征表示获取模块,被配置为获取第一应用的多个用户的特征表示集合。该装置还包括聚类结果确定模块,被配置为基于特征表示集合,确定特征表示集合的第一聚类结果和第二聚类结果。该装置还包括聚类结果发送模块,被配置为将第一聚类结果和第二聚类结果发送到与第一应用不同的第二应用。
[0007]根据本公开的第三方面,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使电子设备执行根据第一方面所述的方法。
[0008]根据本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。
[0009]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
[0010]结合附图并参考以下详细说明,本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0011]图1示出了根据本公开的某些实施例的数据处理方法能够在其中实现的示例环境的示意图;
[0012]图2示出了根据本公开的某些实施例的数据处理方法的流程图;
[0013]图3示出了根据本公开的某些实施例的确定软聚类结果的过程的流程图;
[0014]图4示出了根据本公开的某些实施例的使用不同参数的软聚类结果的对比的示意图;
[0015]图5A示出了根据本公开的某些实施例的确定硬聚类结果的过程的流程图;
[0016]图5B示出了根据本公开的某些实施例的确定硬聚类结果的过程500的开始的示意图;
[0017]图6示出了根据本公开的某些实施例的硬聚类结果的对比的示意图;
[0018]图7示出了根据本公开的某些实施例的用于数据处理装置的框图;以及
[0019]图8示出了根据本公开的某些实施例的用于数据处理的设备的框图。
[0020]在所有附图中,相同或相似参考数字表示相同或相似元素。
具体实施方式
[0021]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0022]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0023]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以字词的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0024]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0025]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0026]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0027]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包括,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实
施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。
[0028]另外,本文所有具体数值都是示例,仅是为了帮助理解,绝无限定范围之意图。
[0029]在深度学习系统中,用户特征可以被映射到词向量(embedding)中,因此又被称为特征表示。用户的特征与其特征表示是一一对应的。不同特征表示之间的距离可以表示不同用户的特征之间的相似性。因此,在互联网产品矩阵中的用户数据迁移实际上可以理解为迁移这些特征表示。
[0030]容易理解,由于现实中的用户数量非常庞大,直接迁移这些数量庞大的特征表示可能不现实。跨不同应用迁移用户数据时,为了减少迁移的数据量以及硬件资源的开销,可以只迁移用户数据的聚类结果,而不迁移用户数据本身。这样,可以在不影响应用的使用性能的情况下,实现上述目的。
[0031]专利技术人注意到,在对用户数据进行聚类时,如果只将一个用户数据聚类为一个簇,即一个用户数据完全属于一个簇(又被称为硬聚类),这样难免会过于绝对化。因为可能某些数据的特性会造成其可能属于多个簇。因此,可以将一个用户数据划分到多个簇,以概率分布的形式表示该用户数据属于每个簇的概率(又被称为软聚类)。
[0032]为了解决上述缺点,本公开的实施例提供了一种数据处理的方案。该方案获取应用中的用户数据的词向量,即特征表示集合。对特征表示集合进行聚类,并且得到如上所述的两种聚类结果。在迁移数据时,只需要将这两种聚类结果发送到其他应用,而无需直接发送用户的特征表示。其他应用在接收到这些聚类结果后,可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取第一应用的多个用户的特征表示集合;基于所述特征表示集合,确定所述特征表示集合的第一聚类结果和第二聚类结果;以及将所述第一聚类结果和所述第二聚类结果发送到与所述第一应用不同的第二应用。2.根据权利要求1所述的方法,其中确定所述第一聚类结果包括:针对所述多个用户中的每个用户的特征表示,确定所述特征表示的概率分布,其中所述概率分布指示所述特征表示属于预先确定的多个聚类的相应概率;以及基于所述多个用户各自的所述概率分布,确定所述第一聚类结果。3.根据权利要求2所述的方法,其中确定所述特征表示的概率分布包括:获取针对所述特征表示的多个概率密度分布;基于所述多个概率密度分布,确定所述多个概率密度分布的加权和;以及基于所述加权和,确定所述特征表示的所述概率分布。4.根据权利要求3所述的方法,其中确定所述多个概率密度分布包括:确定聚类的形状和聚类的数目;以及基于确定的所述聚类的形状和所述聚类的数目,确定所述多个概率密度分布。5.根据权利要求4所述的方法,其中确定所述聚类的形状包括:通过确定不同的协方差矩阵来调整所述聚类的形状。6.根据权利要求1所述的方法,其中确定所述第二聚类结果包括:在所述特征表示集合中确定一定数目的特征表示以作为聚类中心;针对每个聚类中心:在所述聚类中心的阈值距离内搜索特征表示;以及在所述聚类中心所表示的聚类中包括搜索到的特征表示;基于所述聚类,确定所述第二聚类结果。7.根据权利要求6所述的方法,其中在所述聚类中心的阈值距离内搜索特征...

【专利技术属性】
技术研发人员:罗尧蒋淳
申请(专利权)人:抖音视界有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1