一种基于选择交互的样本知识聚合度计算方法、系统以及存储介质技术方案

技术编号:28837455 阅读:11 留言:0更新日期:2021-06-11 23:34
本发明专利技术公开了一种基于选择交互的样本知识聚合度计算方法、系统以及存储介质,本方案首先构建相应样本的选择交互向量,包括推送向量与点击向量,其中推送向量为被动选择向量,点击向量为主动选择的向量;然后基于不同样本的推送向量与点击向量,分别计算两个样本间的真实契合度与没有知识点重合时的先验契合度;最后通过度量两种契合度的提升程度,即可获得样本间知识聚合度。本方案能够在不使用样本本身内容的情况下,仅利用选择向量表示的选择交互数据,计算出样本间知识点或兴趣的聚合程度,在计算中排除样本流行程度的影响。

【技术实现步骤摘要】
一种基于选择交互的样本知识聚合度计算方法、系统以及存储介质
本专利技术涉及互联网、人工智能领域中数据样本处理技术,具体涉及样本知识聚合度的计算技术。
技术介绍
很多互联网任务中,存在大量选择交互,比如对某个网页的选择、对资讯的选择、及对商品的选择,由此可以产生大量的选择数据。从被选择的目标角度来看,选择数据可以整理成选择主体的集合,或者写成高维组合向量的形式,即维度为选择主体数目、元素值为0或1的高度稀疏向量。很多时候需要利用选择这种形式的选择数据计算被选择的目标间的相似度,比如通过两篇资讯的选择向量计算它们之间的相似度,该相似度可以进一步作为资讯推荐的依据,类似的,通过两件商品的选择向量计算它们之间的关联度也可用来推荐商品。目前通常用于计算上述选择向量的方法包括皮尔逊相似性度量,余弦相似性度量与杰卡德相似性度量。在这些相似性度量方法中,杰卡德相似性度量方法尤其适合高度稀疏的高维组合选择向量,其核心思路是计算两个集合的交集规模在它们并集规模中的比例,对于选择向量来说则通过逻辑运算实现,通过分别对两个选择向量进行按位与和按位或操作,然后计算两种操作后结果1范数比值,其中1范数指向量中的非零元素个数。众所周知在互联网应用中,很多时候要考虑选择数据样本间的本质内容的相似性,比如其涵盖的知识或兴趣的聚合程度,而包括杰卡德相似性度量在内的现有相似度计算方法通过对样本选择变量的统计获得,是一个绝对的数值,没有考虑样本自身的选择比例或流行程度,因此不能客观反映样本间知识点或兴趣的聚合程度或聚合价值。例如,对于两个被广泛选择的流行样本,即使它们包含的知识点或兴趣点完全不同(如资讯中的爆炸性新闻和抽奖新闻),利用现有相似性度量方法计算,这两个样本相似度也会得到一个很高的值,但它们的知识点或兴趣点聚合程度可能非常低。相反的,对于两个被较少选择的小众样本,即使他们包含的知识点或兴趣点高度一致,由于数据推送原因导致选择主体往往分布分散,利用现有相似性度量方法计算,这两个样本相似度反而会得到一个不高的值。如此,如何有效的利用选择数据度量样本间知识或兴趣等本质相似性为本领域亟需解决的问题。
技术实现思路
针对现有数据样本相似性度量计算方法所存在的问题,本专利技术的目的在于提供一种基于选择交互的样本知识聚合度计算方法,可以在不引入被选择目标本身内容信息的前提下,获得数据样本间本质的知识点或兴趣点的聚合程度。据此,本专利技术还进一步提供一种计算系统,以及存储介质。为了达到上述目的,本专利技术提供的基于选择交互的样本知识聚合度计算方法,包括:构建相应样本的选择交互向量,包括推送向量与点击向量,其中推送向量为被动选择向量,点击向量为主动选择的向量;基于不同样本的推送向量与点击向量,分别计算两个样本间的真实契合度与没有知识点重合时的先验契合度;通过度量真实契合度与先验契合度之间的提升程度,获得样本间知识聚合度。进一步地,所述方法通过如下方式构建样本的选择交互向量:其中N表示选择主体的个数,TA表示N个选择主体被推送样本A的指示向量,如第i个选择主体被推送,TA中第i个元素记为1,否则记为0;DA表示N个选择主体点击样本A的指示向量,如第i个选择主体点击样本A,则DA中第i个元素记为1,否则记为0。进一步地,所述方法计算样本知识聚合度时,包括:首先基于不同样本的推送向量与点击向量,构建契合度与知识重合度的关联方式;接着,通过将知识重合度置零可以获得样本的先验契合度;接着,通过正常的样本契合度计算方式获得样本间真实契合度;接着,通过两种契合度做比,并通过两个样本各自的流行程度进行比例修正获得样本知识聚合度。为了达到上述目的,本专利技术提供的基于选择交互的样本知识聚合度计算系统,包括:选择交互向量构建模块,构建每个样本的推送向量与点击向量,其中推送向量为被动选择向量,点击向量为主动选择的向量;样本知识聚合度计算模块,基于不同样本的推送向量与点击向量,分别计算两个样本间的真实契合度与没有知识点重合时的先验契合度,并通过度量两种契合度的提升程度,获得样本间知识聚合度。进一步的,所述样本知识聚合度计算模块包括:关联子模块,所述关联子模块基于不同样本的推送向量与点击向量,构建契合度与知识重合度的关联方式;先验契合度计算子模块,所述先验契合度计算子模块基于知识重合度置零来计算获得样本的先验契合度;真实契合度计算子模块,所述真实契合度计算子模块通过正常的样本契合度计算方式获得样本间真实契合度;知识聚合度计算子模块,所述知识聚合度计算子模块与先验契合度计算子模块和真实契合度计算子模块数据交互,将得到的样本间真实契合度与样本的先验契合度进行做比获得样本知识聚合度。为了达到上述目的,本专利技术提供的存储介质,所述存储介质包括存储的程序,所述程序执行上述的样本知识聚合度计算方法。本专利技术提供的方案能够在计算选择向量表示的选择数据样本间相似度时,消除被选择目标流行程度的影响,,从而可以在不引入被选择目标本身内容信息的前提下,获得数据样本间本质的知识点或兴趣点的聚合程度。样本流行程度也可以称为被接受度,可以通过点击量与推送量的比值来度量,本专利技术提供的方案通过基于样本流行程度的知识聚合度修正实现消除被选择目标流行程度的影响的目的。本专利技术提供的方案,所涉及到的样本契合度与样本知识聚合度均只依靠样本推送向量与点击向量,计算复杂度相同,而不需要样本本身的知识信息的处理带来的额外计算。如此本方案在实际应用时,能够在不增加计算量的情况下,仅利用选择交互信息即可获得被选择目标间的知识点或兴趣点聚合度。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实例,进一步阐述本专利技术。本方案针对现有方案存在的缺陷,给出基于选择交互操作的样本间知识聚合度计算方案。该方案,首先要构建每个样本的选择交互向量,这里的选择交互向量包括推送向量与点击向量,这两种类型的选择向量,其中推送向量是被动选择向量,而点击向量是主动选择的向量;然后,在此基础上计算这两种选择向量(即推送向量与点击向量)间的契合度,即两个选择向量在给定分布情况下(真实分布或完全随机)的相似性度量。本方案中,基于不同样本的推送向量与点击向量,分别计算两个样本间的真实契合度与没有知识点重合时的先验契合度。基于真实契合度相比于先验契合度提高的越多,则两个样本知识重合越大。本方案再进一步通过度量两种契合度(即真实契合度与先验契合度)之间的提升程度,由此来获得样本间知识聚合度。在此基础上,本方案在具体实施时,可通过如下方式构建样本的选择交互向量:其中N表示选择主体的个数,TA表示N个选择主体被推送样本A的指示向量,如第i个选择主体被推送,TA中第i个元素记为1,否则记为0;DA表示N个选择主体点击样本A的指示向量,如第i个选择主体本文档来自技高网
...

【技术保护点】
1.基于选择交互的样本知识聚合度计算方法,其特征在于,包括:/n构建相应样本的选择交互向量,包括推送向量与点击向量,其中推送向量为被动选择向量,点击向量为主动选择的向量;/n基于不同样本的推送向量与点击向量,分别计算两个样本间的真实契合度与没有知识点重合时的先验契合度;/n通过度量真实契合度与先验契合度之间的提升程度,获得样本间知识聚合度。/n

【技术特征摘要】
1.基于选择交互的样本知识聚合度计算方法,其特征在于,包括:
构建相应样本的选择交互向量,包括推送向量与点击向量,其中推送向量为被动选择向量,点击向量为主动选择的向量;
基于不同样本的推送向量与点击向量,分别计算两个样本间的真实契合度与没有知识点重合时的先验契合度;
通过度量真实契合度与先验契合度之间的提升程度,获得样本间知识聚合度。


2.根据权利要求1所述的基于选择交互的样本知识聚合度计算方法,其特征在于,所述方法通过如下方式构建样本的选择交互向量:






其中N表示选择主体的个数,TA表示N个选择主体被推送样本A的指示向量,如第i个选择主体被推送,TA中第i个元素记为1,否则记为0;DA表示N个选择主体点击样本A的指示向量,如第i个选择主体点击样本A,则DA中第i个元素记为1,否则记为0。


3.根据权利要求1所述的基于选择交互的样本知识聚合度计算方法,其特征在于,所述方法计算样本知识聚合度时,包括:
首先基于不同样本的推送向量与点击向量,构建契合度与知识重合度的关联方式;
接着,通过将知识重合度置零可以获得样本的先验契合度;
接着,通过正常的样本契合度计算方式获得样本间真实契合度;
接着,通过两种契合度做比,并通过两个样本各自...

【专利技术属性】
技术研发人员:项涛刘智勇杨旭曾少锋姚志煜
申请(专利权)人:上海维外科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1