【技术实现步骤摘要】
本专利技术涉及异质信息网络中的元路径确定
,特别是涉及一种元路径确定方法及装置。
技术介绍
近年来,对异质信息网络的研究越来越火热,许多数据挖掘工作都是在异质信息网络中进行的。异质信息网络(Heterogeneous Information Network)是指,网络中的实体对象类型|A|>1或链接不同实体对象之间的关系类型|R|>1的网络,在网络中,一个结点代表一个实体对象(简称实体),一条边代表被这条边连接的两个实体对象间的关系。链路预测是从异质信息网络中进行数据挖掘的基础,例如数据清洗和推荐等。链路预测的一般过程为:确定异质信息网络中的被特定边链接的多个训练实体对,枚举出这些训练实体对的所有元路径;根据枚举出的训练实体对的元路径建立预测模型,根据预测模型计算待预测实体对被上述特定元路径链接的概率,当这个概率大于预设值的时候,说明待预测实体对被这个特定边链接。元路径是指,连接异质信息网络中的两个实体的不同路径的排序组合,代表着实体间的语义关系。一条元路径∏被定义为它描述了在结点R1和Rl+1之间,通过一系列的结点R1,…,Rl+1和链路边L1,…,Ll的一条路径。以图1所示的Dbpedia知识图记为例,它包含了很多不同类型的结点和边,如结点Person、City、Country,边bornIn、locatedIn、diedIn、hasCapital-1;两个结点可以由多条元路径链接起来,例如,链接Person和Country两个结点的元路径有两条:一是,二是,元路径被广泛应用于链路预测中。因此,进行链路预测的首要任务是,确定异质信息网络中的元路 ...
【技术保护点】
一种异质信息网络元路径确定方法,其特征在于,所述方法包括:S101、确定异质信息网络中待确定元路径的多个第一实体对,其中,每一所述第一实体对包括源结点和目标结点,每一所述第一实体对至少被第一预设类型的边链接;S102、根据所述多个第一实体对确定初始数据结构体;所述初始数据结构体包括:由每一所述第一实体对中的源结点与该源结点自身组成的实体对;S103、根据所述异质信息网络中的边类型,生成跳数为1的多个第一侯选元路径,对每一所述第一侯选元路径执行完步骤A至步骤D后,执行步骤S104:A.根据所述异质信息网络、所述初始数据结构体和所述第一侯选元路径,生成被所述第一侯选元路径链接的多个第二实体对;其中,所述第二实体对的源结点为所述初始数据结构体中的实体对的源结点,所述第二实体对的目标结点为所述异质信息网络中除所述第一实体对中的源结点外的结点;B.根据第一预设模型计算每一所述第二实体对被所述第一候选元路径链接时的相似性度量值;将所述第一候选元路径、每一所述第二实体对及其对应的相似性度量值保存至第一数据结构体;C.根据第二预设模型计算所述第一数据结构体的综合相似性分数并保存至所述第一数据结构体;D ...
【技术特征摘要】
1.一种异质信息网络元路径确定方法,其特征在于,所述方法包括:S101、确定异质信息网络中待确定元路径的多个第一实体对,其中,每一所述第一实体对包括源结点和目标结点,每一所述第一实体对至少被第一预设类型的边链接;S102、根据所述多个第一实体对确定初始数据结构体;所述初始数据结构体包括:由每一所述第一实体对中的源结点与该源结点自身组成的实体对;S103、根据所述异质信息网络中的边类型,生成跳数为1的多个第一侯选元路径,对每一所述第一侯选元路径执行完步骤A至步骤D后,执行步骤S104:A.根据所述异质信息网络、所述初始数据结构体和所述第一侯选元路径,生成被所述第一侯选元路径链接的多个第二实体对;其中,所述第二实体对的源结点为所述初始数据结构体中的实体对的源结点,所述第二实体对的目标结点为所述异质信息网络中除所述第一实体对中的源结点外的结点;B.根据第一预设模型计算每一所述第二实体对被所述第一候选元路径链接时的相似性度量值;将所述第一候选元路径、每一所述第二实体对及其对应的相似性度量值保存至第一数据结构体;C.根据第二预设模型计算所述第一数据结构体的综合相似性分数并保存至所述第一数据结构体;D.将所述第一数据结构体插入侯选集;S104、根据所述综合相似性分数的大小,从所述侯选集中选出一个数据结构体,记为第二数据结构体;检察所述第二数据结构体中是否存在与任一所述第一实体对相同的第三实体对;S105、如果存在,将所述第二数据结构体中,链接所述第三实体对的元路径及所述第三实体对对应保存至元路径集,删除所述侯选集中的所述第二数据结构体,并执行步骤S104;S106、如果不存在,根据所述第二数据结构体中保存的第二侯选元路径及所述异质信息网络中的边类型,生成多个第三侯选元路径,所述第三侯选元路径的跳数与所述第二候选元路径的跳数的差为1;删除所述侯选集中的所述第二数据结构体;对每一所述第三侯选元路径执行完步骤E至H后,执行步骤S104;E、根据所述异质信息网络、所述第二数据结构体和所述第三侯选元路径,生成被所述第三侯选元路径连接的多个第四实体对,所述第四实体对的源结点为所述第二数据结构体中的实体对的源结点,所述第四实体对的目标结点为所述异质信息网络中除所述第一实体对的源结点外的结点;F、根据所述第一预设模型计算每一所述第四实体对被所述第三侯选元路径链接时的相似性度量值,将所述第三侯选元路径、每一所述第四实体对及其对应的相似性度量值保存至第三数据结构体;G、根据所述第二预设模型计算所述第三数据结构体的综合相似性分数并保存至所述第三数据结构体;H、将所述第三数据结构体插入所述侯选集;其中,所述第一预设模型为:其中,σ(s,ti|∏1…i)表示源结点s和目标结点ti在元路径∏1…i上的相似性度量值;∏1…i表示链接源结点s和目标结点ti的一条i-1跳的元路径,I(Vi-1)表示从源结点s开始在元路径∏1…i-1上游走可到达的目标结点的集合,x为I(Vi-1)中的一个结点;R(x,ti)表示是否能通过边Ri-1到达目标结点ti,能为1,否则为0;R(x,·)表示结点x通过边Ri-1可到达的结点数目;所述第二预设模型为:其中,S表示数据结构体的综合相似性分数;s是源结点,t是通过元路径∏的可达目标结点,τ是可达目标结点的数目;σ(s,t|∏)为实体对(s,t)在元路径∏上的相似性度量值;r(s)=1-α*N,r(s)表示源结点s对于当前数据结构体的贡献能力以平衡结构体的选择,α为贡献能力的递减系数,N表示已保存至所述元路径集的元路径链接的源结点为s的所述第一实体对的个数。2.根据权利要求1所述的方法,其特征在于,在执行完所述步骤C后,并在执行所述步骤D前,所述方法还包括:I.判断所述第一数据结构体对应的所述综合相似性分数是否不小于第一预设值;如果是,执行所述步骤D;和/或,在执行完所述步骤G后,并在执行所述步骤H前,所述方法还包括:J.判断所述第三数据结构体对应的所述综合相似性分数是否不小于第一预设值;如果是,执行所述步骤H。3.根据权利要求1所述的方法,其特征在于,在执行所述步骤E前,所述方法还包括:判断所述第三侯选元路径的跳数是否不大于第二预设值;如果是,执行所述步骤E。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据第三预设模型,确定所述元路径集中每一条元路径对应的权重并对应保存至所述元路径集;所述第三预设模型为: max h = Σ x + ∈ q + l n ( t ( ω , x + ) ) | q + | + Σ x - ∈ q - l n ( 1 - t ( ω , x - ) ) | q - | - | | ω | | 2 2 ]]>其中,h表示第三预设模型的输出值,x+是正例样本x+在所有元路径上的相似性度量值组成的向量,x+称为正例值;x-是负例样本x-在所有元路径上的相似性度量值组成的向量,x-称为负例值;正例样本x+是所述第一实体对;负例样本x-是将所述正例样本中的目标结点替换为与该目标结点同类型的结点后,构成的不存在链接链路的样本;ω为所述元路径集中每一条元路径对应的权重组成的向量;q+为所有正例值x+组成的相似度矩阵;q-为所有负例值x-组成的相似度矩阵;为修正项。5.一种应用权利要求4所述的方法进行链路预测的方法,其特征在于,所述链路预测的方法包括:确定待预测实体对;根据第四预设模型及所述元路径集,确定所述待预测实体对对被所述第一预设类型的边链接的概率;所述第四预设模型为:其中,η(s,t|γ)为待预测实体对对被所述第一预设类型的边链接的概率;(s,t)是所述待预测实体对,其中s是源结点,t是目标结点;γ为所述元路径集;i为元路径在γ中的序号;σ(s,t|∏i)为所述待预测实体对(s,t)在第i条元路径∏i上的相似性度量值;ωi是元路径∏i的权重;ω0为修正系数;判断所述概率是否大于第三预设值,如果是,确定所述第三实体对被所述预设类型的边连接。6.一种异质信息网络元路径确定装置,其特征在于,所述装置包括:第一确定模块、第二确定模块、第一触发模块、第三确定模块、第一计算模块、第二计算模块、第一插入模块、第一选择模块、第二触发模块、第三触发模块、第四确定模块、第三计算模块、第四计算模块和第二插入模块,所述第一确定模块,用于确定异质信息网络中待确定元路径的多个第一实体对,其中,每一所述第一实体对包括源结点和目标结点,每一所述第一实体对至少被第一预设类型的边链接;所述第二确定模块,用于根据所述多个第一实体...
【专利技术属性】
技术研发人员:石川,曹晓欢,郑玉艳,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。