System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于梯度语义属性嵌入的无监督用户对齐方法技术_技高网
当前位置: 首页 > 专利查询>西华大学专利>正文

一种基于梯度语义属性嵌入的无监督用户对齐方法技术

技术编号:42828830 阅读:1 留言:0更新日期:2024-09-24 21:03
本发明专利技术属于用户对齐技术领域,公开了一种基于梯度语义属性嵌入的无监督用户对齐方法,本发明专利技术包括(a)数据预处理,(b)实体信息提取,(c)用户属性平滑,(d)梯度语义属性划分与嵌入,(e)特征融合和(f)识别匹配用户对。本发明专利技术适用于包含复杂异质属性信息和网络结构稀疏以及缺乏已知匹配用户的情况;本发明专利技术实现了全过程的无监督用户对齐,无需任何先验信息,提升了性能表现的同时节约了数据采集和标记成本。

【技术实现步骤摘要】

本专利技术属于用户对齐,具体涉及一种基于梯度语义属性嵌入的无监督用户对齐方法


技术介绍

1、社交媒体平台的蓬勃发展和用户在多个平台上活动的趋势突显了数字生态系统的广泛性和动态性,同时也增加了跨平台数据分析的复杂性。用户对齐(user aligment)是在线社交网络分析中的关键过程,也被称为用户身份链接(user identity linkage)或锚点链接预测(anchor link prediction),旨在识别不同社交平台上的相同个体。用户对齐建立的用户跨平台统一视角可以有效促进社兴趣推荐系统、用户跟踪和情感分析等任务的发展。

2、最初,用户对齐研究主要集中在利用个体档案属性(用户昵称、位置信息、职业等),生成内容(文章、博客等)或网络结构(关注关系、好友关系等)上。随着时间的推移,逐渐出现了将这些维度整合起来的趋势,这一发展在很大程度上促进了用户对齐任务的进步。尽管取得了这些进展,但现有方法学面临几个关键限制:

3、(1)未能充分解决不同档案类型之间语义强度的变化。这种疏忽导致特征提取不够充分,阻碍了模型充分理解嵌入在文本特征中的复杂内涵的能力。

4、(2)在有效利用用户生成内容方面存在显著差距。以往的方法主要依赖于主题分布或文本分类,缺乏效率且容易引入过多噪音,使其不太适用于复杂语义分析。

5、(3)网络结构中远距离关系的可靠性被高估了。由于获取全面的真实社交网络数据的困难以及用户网络关系的固有不完整性,将多跳用户关系视为ua的可靠证据的效用有限,对这些方法的有效性构成挑战。

6、(4)属性分类嵌入方法缺乏明确的分类标准。在过去的研究中,针对不同的属性特征使用了不同的嵌入方法,但分类标准往往源自用户的经验观察,从而限制了模型在不同类型社交平台上的适用性。


技术实现思路

1、本专利技术为了解决上述技术问题,而提供一种基于梯度语义属性嵌入的无监督用户对齐方法,在消除了对标记数据或预对齐的用户。

2、为解决技术问题,本专利技术所采用的技术方案是:

3、一种基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,包括:

4、(a)将社交网络中的用户数据进行预处理构建无向无权图g=(u,e,p),其中,u表示用户集合,e代表用户间关系集合,p代表用户属性对象集合;

5、(b)实体信息提取:利用预训练实体命名识别模型来从用户属性对象集合p中的用户生成内容属性中提取关键实体,以实体信息来替代原始的用户生成内容;

6、(c)用户属性平滑:针对用户集合u中的缺失某一特定属性的用户ui,检索出ui在一跳范围内的邻居用户,并将用户ui的缺失属性内容替换为这些邻居(即一跳范围内的邻居用户)中最高频的属性内容,从而使得该用户的特征向量平滑化;

7、(d)梯度语义属性划分与嵌入:根据语义因子映射函数得到用户属性对象集合p中各类属性的语义因子,并结合两个决策参数将p(即用户属性对象集合)中的各类属性划分为弱语义属性、亚语义属性和强语义属性三个梯度,针对划分的三种不同语义属性的特点设计三种无监督的特征嵌入方法来生成对应的特征向量矩阵zwe、zsub和zst;

8、(e)特征融合:将用户各个梯度语义属性的嵌入结果(即三个特征向量矩阵zwe、zsub和zst)进行拼接,得到用户在高维空间中的全梯度语义向量表示相应的,能够得到社交网络gα和gβ中所有用户的全梯度语义特征矩阵和最后分别在这两个特征矩阵上进行0-1标准化操作,将每一行的平均值转化为0;

9、(f)识别匹配用户对;对于来自网络gα中的任意一个用户ui,通过比较该用户ui与另一网络gβ中所有用户在同一向量空间中的距离,进而确定用户ui的匹配用户;其中,若匹配用户与用户ui在同一向量空间中的距离越小,说明两个用户(即用户ui和确定的匹配用户)更可能是同一个自然人。

10、进一步地,步骤(d)中所述梯度语义属性划分与嵌入包括梯度语义属性划分的步骤和梯度语义属性嵌入的步骤。

11、在一些实施例中,所述梯度语义属性划分的步骤具体包括:

12、(d1)使用维基百科最新中文文章作为语料库,来训练一个基于连续词袋(cbow)的word2vec词向量模型,用以将词映射成向量;

13、(d2)利用语义因子映射函数得到用户属性对象集合p中各类属性的语义因子δ(δ的值域为[0,1]);

14、(d3)通过两个决策参数ql和qf按照语义因子δ的值将p中各类属性按照语义强弱程度的递增划分为三个梯度:当δ<ql时为弱语义属性当ql≤δ≤qf时为亚语义属性当qf<δ时为强语义属性

15、在一些实施例中,所述梯度语义属性嵌入的步骤包括对弱语义属性进行嵌入、亚语义属性进行嵌入和对强语义属性进行嵌入。

16、在一些实施例中,对弱语义属性进行嵌入包括:

17、(d41)使用词袋模型得到标记频率矩阵

18、(d42)然后采用自编码器对标记频率矩阵转化为低维稠密的弱语义属性特征向量矩阵

19、在一些实施例中,对强对强语义属性进行嵌入包括:

20、利用词向量模型(word2vec)将强语义属性中的所有词映射为词向量,并以中所有词的词向量的均值作为属性的特征向量,最终强语义属性ast转化为一个特征向量矩阵

21、在一些实施例中,对亚语义属性进行嵌入包括:

22、(d51)获得表示亚语义属性低级字面特征的矩阵

23、(d52)获得表示亚语义属性高级语义特征的矩阵

24、(d53)由(d51)和(d52)步骤得到两个矩阵,在每个对应位置行的行向量上求标准差得到亚语义属性的特征向量相应的亚语义属性的特征向量矩阵表示为:

25、进一步地,所述步骤(f)中所述识别匹配用户对具体包括:

26、(f1)使用社交网络gβgα中的用户特征矩阵(集合)来构建一个以曼哈顿距离为度量函数的球树(balltree);

27、(f2)使用社交网络gα中的用户特征矩阵(集合)中的每一个特征向量从球树中检索出曼哈顿距离最近的向量,对应的用户则为最有可能的同一自然人。

28、与现有技术相比,本专利技术具有以下有益效果:

29、本专利技术基于梯度语义属性嵌入的无监督用户对齐方法,并提出了一个语义因子映射函数,用以量化用户文本属性语义的强度。可根据语义因子和决策参数和将用户属性分为三个梯度级别,从而构建全梯度语义向量,实现了对用户特征更广泛和更合理的捕获。

30、本专利技术使用了实体命名识别技术来处理用户生成内容,以用户生成内容中的关键实体来代表源文本。这种处理方式可以有效减少复杂文本中的噪音干扰并提升嵌入效率。另外实体命名技术的使用还高了方法的灵活性,在面对不同性质社交平台是可以自主选择。

31、在真实社交平台中获取完整用户关系网络结构十分困难,依赖于完整网络关系的结本文档来自技高网...

【技术保护点】

1.一种基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,包括:

2.根据权利要求1所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,步骤(d)中所述梯度语义属性划分与嵌入包括梯度语义属性划分的步骤和梯度语义属性嵌入的步骤。

3.根据权利要求2所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,所述梯度语义属性划分的步骤具体包括:

4.根据权利要求3所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,所述梯度语义属性嵌入的步骤包括对弱语义属性进行嵌入、亚语义属性进行嵌入和对强语义属性进行嵌入。

5.根据权利要求4所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,对弱语义属性进行嵌入包括:

6.根据权利要求4所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,对强对强语义属性进行嵌入包括:

7.根据权利要求4所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,对亚语义属性进行嵌入包括:

8.根据权利要求1-7中任一项所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,所述步骤(f)中所述识别匹配用户对具体包括:

...

【技术特征摘要】

1.一种基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,包括:

2.根据权利要求1所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,步骤(d)中所述梯度语义属性划分与嵌入包括梯度语义属性划分的步骤和梯度语义属性嵌入的步骤。

3.根据权利要求2所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,所述梯度语义属性划分的步骤具体包括:

4.根据权利要求3所述的基于梯度语义属性嵌入的无监督用户对齐方法,其特征在于,所述梯度语义属性嵌入的步骤包括对弱语义属性进行嵌入、亚语义属性进行...

【专利技术属性】
技术研发人员:彭勇强陈晓亮黄泽霞李艳丽
申请(专利权)人:西华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1