一种有选择特性的样本或集合间契合程度的度量方法、系统以及存储介质技术方案

技术编号:25600494 阅读:14 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种有选择特性的样本或集合间契合程度的度量方法、系统,以及存储介质,本方案首先构建待度量集合的推送向量与选择向量,这里的待度集合可以为规模为1的集合;接着,获取共同获得待度量集合中样本推送的选择主体集合;接着,凝练选择主体,寻找其中点击过待度量集合中样本的用户集合;接着,基于凝练得到的用户集合节选待度量集合的推送向量与点击向量。本方案可实现集合与集合、样本与集合、样本与样本契合程度计算方式的统一且可大幅度提高计算效率。

【技术实现步骤摘要】
一种有选择特性的样本或集合间契合程度的度量方法、系统以及存储介质
本专利技术涉及互联网、人工智能领域中数据样本处理技术,具体涉及样本间契合程度的度量技术。
技术介绍
在互联网与人工智能应用中,很多数据样本具有选择特性或者投票特性,比如网页链接的点击数据可视为对网页的选择或者投票、商品的购买数据可视为对商品的选择或者投票,文章资讯的阅读也可视为对相关资料的选择或者投票。在实际系统中,常需要计算具有选择特性的样本间的契合程度,比如利用该契合程度表示网页间、商品间、或者文章资讯间的同质程度或者说相似程度。现有的通用计算方法包括皮尔逊相似性度量、余弦相似性度量、杰卡德相似性度量等,尤其是杰卡德相似性度量在具有选择特性的离散样本时有较好的应用效果。随着大数据时代互联网与人工智能应用需求的升级与多样化,在样本间契合程度的基础上,进一步需要获取具有选择特性的样本集合之间的契合程度,比如一组文章资讯与另一组文章资讯间的契合程度。度量这样的集合间契合程度的一种直接方法是利用上文介绍的传统方法(皮尔逊相似性度量、余弦相似性度量、杰卡德相似性度量等)分别两两计算不同集合中样本相似度作为样本间契合程度,然后在利用平均等统计手段获得集合间的契合程度度量。如此度量方法最典型的缺陷是过高的计算复杂度,因为它需要两两计算相似度,随着集合数目与集合中样本数目的提高,涉及的计算量快速提高。此外,该方法计算集合间契合程度完全是在样本层面进行的,忽略了集合本身的属性,缺失统一性。
技术实现思路
针对现有具有选择特性的样本集合间契合程度的度量技术存在计算效率低以及缺失统一性的问题,需要一种新的具有选择特性的样本集合间契合程度的度量方案。为此,本专利技术的目的在于提供一种有选择特性的样本或集合间契合程度的度量方法,其可对有选择特性的样本或集合间(如样本与样本、样本与集合、或集合与集合)契合程度进行度量且计算高效,内涵统一;据此,本专利技术还进一步提供一种度量系统,以及存储介质。为了达到上述目的,本专利技术提供的有选择特性的样本或集合间契合程度的度量方法,包括:构建待度量集合的推送向量与选择向量,所述待度集合可以为规模为1的集合;获取共同获得待度量集合中样本推送的选择主体集合;凝练选择主体,寻找其中点击过待度量集合中样本的用户集合;基于凝练得到的用户集合节选待度量集合的推送向量与选择向量;计算待度量集合间契合度。进一步地,所述集合的推送向量由该集合中每个样本推送指示向量相加获得。进一步地,所述集合的选择向量可通过该集合中每个样本选择指示向量相加获得。进一步地,所述度量方法在求取选择主体集合时,对于每个集合的推送向量,筛选出共同主体。进一步地,所所述度量方法在凝练选择主体时,通过选择主体对两个集合的选择操作以进行凝练。进一步地,所述方法中基于凝练得到的用户集合,通过向量点乘的方式节选待度量集合的推送向量与选择向量。为了达到上述目的,本专利技术提供的有选择特性的样本或集合间契合程度的度量系统,包括:向量构建模块,所述向量构建模块用于构建待度量集合的推送向量与选择向量;所述待度集合可以为规模为1的集合;主体选择模块,所述主体选择模块在向量构建模块对待度量集合构建相应推送向量与选择向量后,对待度量集合求取共同获得待度量集合中样本推送的选择主体集合;凝练模块,所述凝练模块对主体选择模块求取的选择主体集合进行凝练寻找其中点击过待度量集合中样本的用户集合;节选模块,所述节选模块基于凝练模块凝练得到的用户集合节选待度量集合的推送向量与点击向量;契合度计算模块,所述契合度计算模块根据节选模块获得待度量集合的推送向量与点击向量进行待度量集合间契合度计算。进一步地,所述度量系统中还包括输入模块,所述输入模块用于输入待度量集合。为了达到上述目的,本专利技术提供的存储介质,所述存储介质包括存储的程序,所述程序执行上述的度量方法。本专利技术提供的方案可以用于计算有选择特性的样本集合间的契合程度,并且实现集合与集合、样本与集合、样本与样本契合程度计算方式的统一;同时在计算集合与集合契合程度时避免穷举计算两个集合中样本的两两契合程度,大幅度提高计算效率,保证集合间契合程度与样本间契合程度相同的计算复杂度。本专利技术提供的方案可适用于互联网与人工智能应用中数据处理的多种任务。附图说明以下结合附图和具体实施方式来进一步说明本专利技术。图1为本专利技术实例中有选择特性的样本或集合间契合程度的统一度量流程示例图;图2为本专利技术实例中有选择特性的样本或集合间契合程度的统一度量系统的组成示例图;图3为本专利技术实例中一种应用示例示意图。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。本方案针对具有选择特性的样本a,创新的采用两个稀疏向量与数学表示其特性。其中Pa表示N个选择主体(如网民、购买用户、文章咨询读者等)被推送样本a的指示向量,如果样本a被推送给选择主体i,则记为1,否则记为0;Ca表示所有选择主体选择样本a的指示向量,如果选择主体i选择了样本a,则记为1,否则记为0;常量N表示选择主体的总数,一般取值很大的数,但每个选择主体被推送样本的数量与选择样本的数量非常有限,所以Pa与Ca高度稀疏。如此,可以通过非常稀疏的向量(存储)高效的指示选择主体对于样本的选择与否。在此基础上,本方案中将一个样本将作为规模为1的集合,由此使得样本与样本契合程度的度量、样本与集合契合程度的度量都可以统一为集合与集合间契合程度的度量。基于上述方案,以下给出了一种用于有选择特性的样本或集合间契合程度的统一度量方法。参见图1,其所示为本统一度量方法的基本流程示例。由图可知,本统一度量方法主要包括如下步骤:步骤1:针对待度量集合构建相应的推送向量与选择向量。作为举例,对于任意一个集合A,推广样本推送向量与选择向量的概念,即将推送向量(pushvector)Pa与选择向量(ClickVector)Ca从样本a推广到集合A,记为PA与CA,构建集合推送向量与选择向量其中Z表示自然数域。需要说明的,这里的集合可以为规模为1的集合,即为一个样本。具体的,该推送向量PA表示N个选择主体被推送集合A中样本的数量向量,可通过集合A中每个样本推送指示向量相加获得。该选择向量CA表示N个选择主体选择集合A中样本的数量向量,可通过集合A中每个样本选择指示向量相加获得。步骤2:获取共同获得待度量集合中样本推送的选择主体集合。由于契合度度量是基于选择主体的选择行为来计算的,对于每个集合的推送向量(PA与PB),可以首先将共同主体筛选出来,这样相对于所有选择主体的数量,通过选择主体数量大大减少,可以大幅提高运算效率。作为举例,对于任意两个集合A与B,在经过步骤本文档来自技高网...

【技术保护点】
1.有选择特性的样本或集合间契合程度的度量方法,其特征在于,包括:/n构建待度量集合的推送向量与选择向量,所述待度集合可以为规模为1的集合;/n获取共同获得待度量集合中样本推送的选择主体集合;/n凝练选择主体,寻找其中点击过待度量集合中样本的用户集合;/n基于凝练得到的用户集合节选待度量集合的推送向量与选择向量;/n计算待度量集合间契合度。/n

【技术特征摘要】
1.有选择特性的样本或集合间契合程度的度量方法,其特征在于,包括:
构建待度量集合的推送向量与选择向量,所述待度集合可以为规模为1的集合;
获取共同获得待度量集合中样本推送的选择主体集合;
凝练选择主体,寻找其中点击过待度量集合中样本的用户集合;
基于凝练得到的用户集合节选待度量集合的推送向量与选择向量;
计算待度量集合间契合度。


2.根据权利要求1所述的度量方法,其特征在于,所述集合的推送向量由该集合中每个样本推送指示向量相加获得。


3.根据权利要求1所述的度量方法,其特征在于,所述集合的选择向量可通过该集合中每个样本选择指示向量相加获得。


4.根据权利要求1所述的度量方法,其特征在于,所述度量方法在求取选择主体集合时,对于每个集合的推送向量,筛选出共同主体。


5.根据权利要求1所述的度量方法,其特征在于,所所述度量方法在凝练选择主体时,通过选择主体对两个集合的选择操作以进行凝练。


6.根据权利要求1所述的度量方法,其特征在于,所述方法中基于凝练得到...

【专利技术属性】
技术研发人员:项涛刘智勇杨旭曾少锋姚志煜
申请(专利权)人:上海维外科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1