一种学习过程序列化推荐方法技术

技术编号:13021493 阅读:190 留言:0更新日期:2016-03-16 20:17
本发明专利技术涉及信息推荐领域,提供一种序列化信息推荐的方法,包括如下步骤:(1)生成序列元素特征点;(2)以历史数据作为样本集,生成序列元素特征点利用概率,作为推荐序列的评价基础指标;(3)生成序列信息,(4)计算序列活动图中潜在的空载序列距离期望值,选择潜在空载距离期望值最小者作为最优推荐序列。本发明专利技术方法针对序列元素的特征设定权重,根据序列特征约束进行个性化推荐,解决序列化信息推荐精度不高和效率低下等技术问题。

【技术实现步骤摘要】

本专利技术涉及信息推荐领域,特别涉及一种序列化信息推荐的方法及其优化方法, 支持具有序列化特征的信息推荐。
技术介绍
随着信息社会化、社会信息化,信息生产与消费促进了信息产业和信息技术的飞 速发展,互联网已经成为人们获取信息的重要来源。然而互联网规模和信息资源的迅猛增 长带来了信息过载的问题,人们面临"信息虽然丰富,但有用信息获取困难"的窘境,在此 基础上进行数据分析、处理和筛选,并向用户进行实用的,个性化的推荐已成为新的应用方 向。许多信息都是通过特征点方式,以线性序列化的方式呈现的。特征点是指序列中 具有某种特定功能,满足某种特定条件或者具备某种特殊属性且可向用户推荐的序列的组 成元素,例如用户浏览商品信息的历史记录序列,在校生的学习轨迹序列,出租车行驶的位 置序列等。根据特征点,分析和挖掘待推荐的序列化信息所独有的特性,例如偏好、频率、距 离、位置等信息,能够使个性化推荐的准确度得到较大的提升。例如,在基于位置的个性化 推荐服务(LBS,LocationBasedServices)中,由于用户的行进路线具有序列化的特征,因 此可通过用户所在位置信息和用户的行进路线特征来判断该用户是否会有某一种行为出 现(如有购物、娱乐或餐饮等行为),此等应用均建立在对序列化模式的深层理解之上。有很 多应用可以抽象成序列化模式下的推荐问题,如用户的购物喜好推荐,学生的学习过程推 荐,出租车线路推荐等。 序列化信息推荐将传统对点的推荐扩展到一个序列的推荐上,但由于这种类型的 推荐受到时间、空间、频率、偏好等各种特征的约束,因此可归结为带有约束的最优或近似 最优的序列化信息推荐问题,现有技术存在的主要缺点有:第一,没有利用历史数据去寻找 潜在的特征点(例如学习分析中潜在的影响学习效果的行为,出租车线路推荐中的潜在载 客点)以及没有评估这些特征点的利用概率(例如学习计划推荐中学生较为关注的知识点 出现的概率,出租车线路推荐中的载客概率等);第二,现有寻找推荐序列的方法没有进行 优化。上述两点造成了现有推荐技术中精度不高,效率低下的问题。
技术实现思路
本专利技术的目的在于针对上述问题与不足,提供一种序列化信息推荐及其优化的方 法,针对序列元素的特征设定权重,根据序列特征约束进行个性化推荐,解决序列化信息推 荐精度不高和效率低下等技术问题。为达到上述目的,本专利技术采用如下的技术方案。-种序列化信息推荐方法,包括以下步骤: (1)生成序列元素特征点;根据历史数据使用聚类方法,如K-means或K近邻等得到N个簇,选取每个簇的几何中心作为潜在的特征点集合;生成一个潜在的特征点集合C,用 点表示特征点,C中包含η个潜在特征点Cl,集合C中的元素为所有特征点{Cl,c2,c3,C4,……,cn};相比盲目的选取一些点作为潜在特征点,通过聚类的方法得到的点可以大幅 度提高特征点的准确性,减少了点的数量,能较大幅度提高精度和缩减计算规模; (2) 以历史数据作为样本集,生成序列元素特征点利用概率,作为推荐序列的评价基础 指标;特征点的利用概率计算方法为:首先对聚类结果进行分析,获得每个类簇的区域点 覆盖,然后根据覆盖中包含的点,统计该区域所包含的点的利用频数记为Q,设置所有区域 中所包含点的可能的利用总频数为归一化参数T,则该区域所对应簇的利用概率为Q/T,例 如在出租车路径推荐问题中,Q可看作是在某一区域里被出租的车辆数量,T可设定为租车 公司的车辆总数;在学习分析问题中,Q可看作是某一聚类中学生较为关注例如关注频次 超过某一阈值的知识点的数量,T则为知识点总数,对于每一个潜在特征点,把该特征点所 代表的簇的利用概率近似作为该点的利用概率;根据样本分析,赋予每个特征点一个不同 的利用概率Ρι,用浮点数表示利用概率,得到一个概率集合p,p中元素Ρι的值为〇到1之 间的一个随机小数,即P中的元素为{Pi,P2,P3,......,pn},〇^Pl^l(l^i^n); (3) 生成序列信息,即序列活动图;序列活动图定义为三元组:(C,P,E),其中C表示 特征点集合,P表示每个特征点对应的利用概率集合,E表示边集,E中包含m条边ei,即两 个特征点之间的序列,E中的元素为{ e2,e3,......,em},E中元素e;定义为(ca,cb,山), 其中ca,cb (1 <a,b<n)为表示起点和终点的两个特征点,山为边的长度,即权重,首先 生成边即相邻特征点之间所组成的连线的长度,边的长度由待解决问题所关注的焦点结合 实际情况来决定,例如租车路径推荐问题中,边的长度可定义为特征点所代表地理位置之 间的物理距离,然后结合步骤(1)、(2)所获得的特征点集和概率集构成序列活动图; 根据序列活动图,可以生成序列;生成序列集合R,R中包含k条完整的序列^,用点 的集合形式表示,即R中的元素为{A,r2,r3,……,rk},R中元素Γι的长度设为r。,巧实 际形式为(ca,cb......c"),ca,cb......(1彡a,b,rc彡n)为序列中的紧邻的点,ca为起 始点,为结束点,为了控制序列长度r。,r。取1到η的开平方之间的一个随机整数,即 1rcsqrt(η); (4) 计算序列活动图中潜在的空载序列距离期望值,结合活动点如出租车路径推荐问 题中的出租车位置的当前位置选择并推荐最优序列,如出租车路径推荐问题中的出租车行 驶线路等;空载序列指,若某一特征点没有得到利用,例如出租车在该点没有接到顾客,客 户没有购买某件商品,学生没有学习某个知识点等,那么该点被认为是无价值的,由若干无 价值的点构成的序列,称为空载序列;最优序列的选择方法基于潜在的空载序列距离期望 值,空载序列距离期望值计算方法如下:假设点Α到点Β之间有一条长度为dist的序列,A 为活动点位置,点B的利用概率为Pb,若在B点可以得以应用,那么由A到B构成的序列可 看作是有价值的,反之,若B点没有得到利用,则需要前往下一个潜在特征点,那么由A到B 构成的序列是无用的,假设较坏的情况,即前往的下一个潜在特征点是无用的,将这段序列 的消耗记为CostA,计算方式如下:即这段序列的消耗等于两点之间的长度乘以B点不利用的概率,对于点B的选取,根 据A得到与之最近的k个点作为待判定点,对其预估的消耗为对应的CostA的值,选取其中 CostA值最小者向后构造后继序列,依此类推,建立一个消耗值为L的有向序列,作为所求 的推荐序列候选;将集合C中N个特征点依次作为活动点起始位置来生成Μ条消耗为L的 推荐序列候选集合,计算每一条序列的潜在空载距离期望值,并在此基础上选择潜在空载 距离期望值最小者作为最优推荐序列。 在上述技术方案中,对所述的空载序列距离期望值计算方法进行优化,具体过程 如下: 对于当前位置PoCab,有k条完整的序列,分别为Γι,r2,r3,……,rk,每条序列记为 (Cl,a,Cl,b......Cl,rc),(C2,a,C2,b......C2,rc),(C3,a,C3,b......C3,rc^ ......,(Ck,a,Ck,b......Ck,rc),首 先计算序列PoCab-Clia- c hb-......-C 的空载序列期望,本文档来自技高网
...

【技术保护点】
一种序列化信息推荐方法,其特征在于该方法包括以下步骤:(1)生成序列元素特征点;根据历史数据使用聚类方法得到N个簇,选取每个簇的几何中心作为潜在的特征点集合;生成一个潜在的特征点集合C,用点表示特征点,C中包含n个潜在特征点ci,集合C中的元素为所有特征点{c1, c2, c3, c4,……, cn};(2)以历史数据作为样本集,生成序列元素特征点利用概率,作为推荐序列的评价基础指标;特征点的利用概率计算方法为:首先对聚类结果进行分析,获得每个类簇的区域点覆盖,然后根据覆盖中包含的点,统计该区域所包含的点的利用频数记为Q,设置所有区域中所包含点的可能的利用总频数为归一化参数T,则该区域所对应簇的利用概率为Q/T,对于每一个潜在特征点,把该特征点所代表的簇的利用概率近似作为该点的利用概率;根据样本分析,赋予每个特征点一个不同的利用概率pi,用浮点数表示利用概率,得到一个概率集合P,P中元素pi的值为0到1之间的一个随机小数,即P中的元素为{p1, p2, p3,……,pn},0≤pi≤1(1≤i≤n);(3)生成序列信息,即序列活动图;序列活动图定义为三元组:(C, P, E),其中C表示特征点集合,P表示每个特征点对应的利用概率集合,E表示边集,E中包含m条边ei,即两个特征点之间的序列,E中元素ei定义为(ca,cb,di),其中ca, cb(1≤a, b≤n)为表示起点和终点的两个特征点,di为边的长度,首先生成边的长度,边的长度由待解决问题所关注的焦点结合实际情况来决定,然后结合步骤(1)、(2)所获得的特征点集和概率集构成序列活动图;根据序列活动图生成序列;生成序列集合R,R中包含k条完整的序列ri,用点的集合形式表示,即R中的元素为{r1, r2, r3,……,rk},R中元素ri的长度设为rc,ri实际形式为(ca,cb……crc), ca,cb……crc(1≤a,b,rc≤n)为序列中的紧邻的点,ca为起始点,crc为结束点,为了控制序列长度rc,rc取1到n的开平方之间的一个随机整数,即1≤rc≤sqrt(n);   (4)计算序列活动图中潜在的空载序列距离期望值,结合活动点的当前位置选择并推荐最优序列;最优序列的选择方法基于潜在的空载序列距离期望值,空载序列距离期望值计算方法如下:假设点A到点B之间有一条长度为dist的序列, A为活动点位置,点B的利用概率为Pb,若在B点可以得以应用,那么由A到B构成的序列可看作是有价值的,反之,若B点没有得到利用,则需要前往下一个潜在特征点,那么由A到B构成的序列是无用的,假设较坏的情况,即前往的下一个潜在特征点是无用的,将这段序列的消耗记为CostA,计算方式如下:即这段序列的消耗等于两点之间的长度乘以B点不利用的概率,对于点B的选取,根据A得到与之最近的k个点作为待判定点,对其预估的消耗为对应的CostA的值,选取其中CostA值最小者向后构造后继序列,依此类推,建立一个消耗值为L的有向序列,作为所求的推荐序列候选;将集合C中N个特征点依次作为活动点起始位置来生成M条消耗为L的推荐序列候选集合,计算每一条序列的潜在空载距离期望值,并在此基础上选择潜在空载距离期望值最小者作为推荐序列。...

【技术特征摘要】

【专利技术属性】
技术研发人员:叶俊民陈曙李超王继新左明章
申请(专利权)人:华中师范大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1