本发明专利技术属于智能信息处理领域,具体涉及一种利用计算机技术辅助网络信息智能分析和处理的面向多实体稀疏关系的联合挖掘方法。本发明专利技术包括:从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表示,进而构建异质关系矩阵集合R;对于每一个异质关系矩阵Ri进行非负矩阵分解;针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵。本发明专利技术在真实数据集上与最近的几种方法进行了对比分析,可知本方法在准确率、纯度、NMI和ARI四个度量指标下都整体优于其他算法。本方法只与规模较小一类的实体相关,因此在大规模数据上具有较好的可扩展性。
【技术实现步骤摘要】
本专利技术属于智能信息处理领域,具体涉及一种利用计算机技术辅助网络信息智能 分析和处理的面向多实体稀疏关系的联合挖掘方法。
技术介绍
随着移动互联网的快速发展,社交网络、学术网络等网络应用越来越丰富,产生了 大量的信息网络。信息网络中通常包括多类实体,实体间通过交互行为构建起复杂的交互 关系网络。例如微博网络中,用户在不同的位置发布、转发、评论消息,消息中可以包括多个 标签、图片等。这些交互行为产生的数据中包括用户、消息、图片、标签、位置等多类实体,实 体间存在多种交互关系。这些交互关系主要包括两类:同质关系和异质关系。传统的信息 网络挖掘主要针对同质关系进行挖掘,例如社区发现等。但是,信息网络中通常包括多类实 体,并且不同实体间存在大量的异质关系。通过对信息网络中的异质关系数据分析,更能挖 掘出不同类实体间的潜在结构。如何通过异质关系数据挖掘多类实体的潜在结构已经成为 当前异质信息网络挖掘领域中研宄的热点问题。 在异构信息网络挖掘领域中,传统的聚类方法只能针对一类实体进行处理,但是 异质关系数据中包含多类实体。目前处理多类实体的方法主要包括多视图聚类和高阶联合 聚类,这些算法都能对多类实体进行同时分析。多视图聚类通常以星型结构进行建模,而真 实的异质关系数据并不一定存在星型结构。因此,本专利技术通过高阶联合聚类算法挖掘异质 关系数据中实体的潜在关系。 高阶联合聚类算法在处理小规模数据时具有较好的效果,但是在大规模信息网络 挖掘时仍然存在一些问题。首先,从原始数据中可抽取的实体类型较多,但是不同类实体之 间的异质关系非常有限,导致构建的异质关系矩阵异常稀疏。其次,在分析大规模微博异质 关系数据时,不同实体之间的规模存在不平衡问题。本专利技术试图同时解决上述两个问题。
技术实现思路
本专利技术的目的在于提出一种针对多类实体间存在的稀疏异质关系进行联合挖掘 的面向多实体稀疏关系的联合挖掘方法。 本专利技术的目的是这样实现的: (1)从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩 阵表示,进而构建异质关系矩阵集合R : (I. 1)实体抽取:从异构数据中抽取待分析的实体,并统计实体在异构数据中的 出现频次,剔除频次小于或等于2次的实体,选择剩余的实体作为待分析实体集合; (1. 2)异构关系抽取:从待分析的实体集合中抽取任意两个实体之间存在的异质 交互关系; (1. 3)异质关系形式化建模:任意两类实体之间的异质关系通过二部图进行建 模,两个实体之间交互的频次作为异质关系的强度,二部图进一步可通过异质关系矩阵进 行表示; (2)对于每一个异质关系矩阵Ri进行非负矩阵分解: (2. 1)关联矩阵构造:从异质关系矩阵中选择规模较小一类实体,依据同类实体 之间的关联关系构建关联矩阵; (2. 2)基于稀疏约束的关联矩阵稀疏对称分解:针对关联矩阵,采用鲁棒的稀疏 约束的对称分解方法; (2. 3)异质关系矩阵三分解:以关联矩阵分解得到的结果作为输入,采用迭代的 三分解方法进行求解; (3)针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵: (3. 1)聚类指示矩阵二元化:根据关联矩阵对称分解的结果进行二元化; (3. 2)针对每一类实体对应的聚类指示矩阵进行融合,得到最终的聚类指示矩阵, 分解得到的指示矩阵中只有一个元素为1,其余为〇,指示矩阵中为1的表示实体属于对应 的类别。 本专利技术的有益效果在于: 本专利技术提出了一种面向多类实体间稀疏异质关系的联合挖掘方法,该方法能够同 时解决大规模信息网络异质关系挖掘中的稀疏问题和不平衡问题,特别是针对极端稀疏情 况下的异质关系数据。该方法无需将异质关系数据建模成星型结构,能够处理更为复杂的 异质关系数据。在稀疏约束下的非负矩阵分解过程中,本专利技术提出了一种贪婪的块坐标下 降优化方法,能够提高稀疏矩阵分解的收敛速度。本专利技术在真实数据集上与最近的几种方 法进行了对比分析,可知本方法在准确率、纯度、匪I和ARI四个度量指标下都整体优于其 他算法。本方法只与规模较小一类的实体相关,因此在大规模数据上具有较好的可扩展性。【附图说明】 图1方法对应的整体框架图。 图2整体流程图。 图3异质关系矩阵分解流程图。【具体实施方式】 下面结合附图对本专利技术做进一步描述。 本专利技术公开了。所述方法包括:异质关 系抽取及建模,抽取不同实体间的异质关系,并通过异质关系矩阵进行表示;异质关系矩阵 分解,选择较小规模实体对应的关联关系构建关联矩阵,并才用稀疏约束的对称非负矩阵 分解方法进行分解,分解结果作为异质关系矩阵三分解的输入,进而快速有效的求解异质 关系矩阵对应的分解矩阵;最后,针对实体的多个异质关系矩阵分解得到的结果进行融合, 进而得到每一类实体对应的聚类指示矩阵。 从异质数据中抽取的异质关系矩阵异常稀疏,直接进行非负矩阵分解,得到的效 果较差。对于高阶数据联合聚类分析中,传统的非负矩阵三分解算法中针对每一个关系矩 阵进行分解,但是针对特别稀疏的数据进行联合聚类时,分解得到的划分指示矩阵很难保 证数据的稀疏特征,而且在实际的数据中,中心节点的划分矩阵在不同的视图中对应的划 分很难在一个尺度中进行度量。传统的高阶联合聚类算法或多视图聚类都将异质关系数据 建模成星型结构,但是很多关系数据并不一定存在星型结构关系。因此,本专利技术提出了一种 针对多类实体间存在的稀疏异质关系进行联合挖掘的方法,方法整体框架如图1所示。 (一)异质关系抽取及建模。 首先从异构数据中抽取待分析的实体以及实体之间的关系,在本专利技术中只考虑任 意两类不同实体之间的异质关系。通过对异质关系的联合聚类分析,就能挖掘出不同实体 间的潜在关系。 在本专利技术中,将任意两类实体间的异质关系Rfcti建模成二部图Gfet)= (Vs, Vt, E)。 二部图Gfct)可采用关系矩阵R fet)表示,可得到异质关系数据集对应的M个关系矩阵集合 R = {Ra2),R(U,. . .,Rfet),...丨。将挖掘异质关系数据D中N类实体间的潜在结构转换成 通过高阶联合聚类算法同时对M个关系矩阵集合R的划分问题,进而得到N类实体的聚类 指示矩阵集合P = {P1,...,PN}。 (二)异质关系矩阵分解。 异质关系矩阵分解主要包括三步核心步骤,分别对应关联矩阵构建、基于稀疏约 束的关联矩阵分解和异质关系矩阵三分解。下面将给出对应的详细实现过程。 1)关联矩阵构建。互信息是衡量两个随机变量之间的相关性的有效度量之一, 为了能够快速的度量同类实体之间的相关关系,本专利技术在矩阵互信息的基础上构建关联矩 阵。 对于任意一个异质关系矩阵Rfe,选择规模较小一类实体s构建关联矩阵。对于s 中任意两个实体i,j,可基于异质关系矩阵Rfct)计算其之间的共现概率,计算公式如式(1) 所示。 ⑴ 关联矩阵iff}的计算公式如下:(2) 进一步可通过Cos计算相似度。对于s类实体的第i个关联矩阵对应的计算 公式如下:(3) 2)基于稀疏约束的关联矩阵分解。基于异质关系矩阵Rfcti构建的实体s对应的第 i个关联矩阵Cw。关联矩阵为对称矩阵,虽然能够大大降低了矩阵的稀疏度,但 是其仍然属于稀疏矩阵,因此,当前第1页1 2 本文档来自技高网...
【技术保护点】
一种面向多实体稀疏关系的联合挖掘方法,其特征在于,包括以下步骤:(1)从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表示,进而构建异质关系矩阵集合R:(1.1)实体抽取:从异构数据中抽取待分析的实体,并统计实体在异构数据中的出现频次,剔除频次小于或等于2次的实体,选择剩余的实体作为待分析实体集合;(1.2)异构关系抽取:从待分析的实体集合中抽取任意两个实体之间存在的异质交互关系;(1.3)异质关系形式化建模:任意两类实体之间的异质关系通过二部图进行建模,两个实体之间交互的频次作为异质关系的强度,二部图进一步可通过异质关系矩阵进行表示;(2)对于每一个异质关系矩阵Ri进行非负矩阵分解:(2.1)关联矩阵构造:从异质关系矩阵中选择规模较小一类实体,依据同类实体之间的关联关系构建关联矩阵;(2.2)基于稀疏约束的关联矩阵稀疏对称分解:针对关联矩阵,采用鲁棒的稀疏约束的对称分解方法;(2.3)异质关系矩阵三分解:以关联矩阵分解得到的结果作为输入,采用迭代的三分解方法进行求解;(3)针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵:(3.1)聚类指示矩阵二元化:根据关联矩阵对称分解的结果进行二元化;(3.2)针对每一类实体对应的聚类指示矩阵进行融合,得到最终的聚类指示矩阵,分解得到的指示矩阵中只有一个元素为1,其余为0,指示矩阵中为1的表示实体属于对应的类别。...
【技术特征摘要】
【专利技术属性】
技术研发人员:杨武,申国伟,王巍,苘大鹏,玄世昌,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。