基于数据包络分析的排序学习方法技术

技术编号:10832336 阅读:88 留言:0更新日期:2014-12-27 17:14
本发明专利技术公开了一种基于数据包络分析的排序学习方法。该发明专利技术以检索词为单位,每个检索词的关联文档构成一个决策单元集合,根据数据包络分析模型确定每个关联文档的最优权值向量,以之构建候选基本模型集合。最后,基于Boosting技术优化排序模型。本发明专利技术公开的方法能够有效改善当前排序学习模型的性能,可应用于搜索引擎、机器翻译、推荐系统,以及生物信息等领域。

【技术实现步骤摘要】

本专利技术属于信息检索领域,涉及一种机器学习的方法,具体涉及一种排序学习方 法。
技术介绍
排序学习方法是一种有效的排名技术,利用监督型机器学习方法,通过优化损失 函数,从训练数据集中训练一个排序模型。排序学习在过去十年间发展迅速,已经成功地应 用于网络搜索引擎、机器翻译、推荐系统与生物信息等领域。 根据输入空间、输出空间、模型假设和损失函数的不同,排序学习方法可以分成三 类:逐点型、序对型和序列型,下面分别予以阐述: 逐点型排序学习方法将排名问题转化为传统的分类和回归问题,根据成熟的分 类和回归算法,使用分类错误率或者均方差构建损失函数,训练排序模型,比如文献Koby Crammer,YoramSinger,etal.Prankingwithranking.Advancesinneuralinformation processingsystems, 14 :641-647, 2001通过训练一个感知器模型,把训练样本映射到一 个全序集。 序对型排序学习算法的训练数据是成对的样本,根据模型假设预测序对的偏好 关系,结合真实相关等级,构造序对损失函数,从而建立优化排序模型,比如文献Chris Burges,TalShaked,ErinRenshaw,AriLazier,MattDeeds,NicoleHamilton,andGreg Hullender.Learningtorankusinggradientdescent.InProceedingsofthe22nd internationalconferenceonMachinelearning,pages89_96.ACM, 2005 根据神经网络 的进化学习理论,辅以梯度下降的优化方法调整模型参数,训练排序模型。 序列型排序学习方法直接将整个样本集合作为学习对象,根据模型的预测结果 和真实排名列表构建序列型损失函数,通过优化序列型损失函数训练排序模型,比如文献 uJunXuandHangLi.Adarank:aboostingalgorithmforinformationretrieval.In Proceedingsofthe30thannualinternationalACMSIGIRconferenceonResearch anddevelopmentininformationretrieval,pages391_398.ACM, 2007基于Boosting技 术,以单个特征作为候选基本排序模型,提出高效的AdaRank学习算法。 三种排序学习方法研究对象的细粒度依次增大:逐点型排序学习方法只抓住了训 练数据的单点信息,忽略了文档序对和文档序列两层信息;序对型学习方法匹配文档序对, 仍然转化为传统的回归和分类问题的处理方法,通常无法避免由于检索词关联文档分布不 均,导致模型预测精度对检索词敏感;序列型排序学习方法是最直观的一种,根据序列信息 定义损失函数,通过直接或者间接的方式最小化损失函数,训练排序模型,然而,目前序列 型排序学习方法已经遭遇性能瓶颈,单纯基于序列信息难以有效提升排序的准确性。
技术实现思路
本专利技术通过引入数据包络分析(DataEnvelopmentAnalysis,DEA)方法,充分利 用单个样本数据、样本序对数据和样本序列数据三种细粒度的训练样本信息,来提升排序 模型的精确性。为了实现上述目的,本专利技术基于Boosting技术,通过引入数据包络分析模 型,挖掘训练数据内在多层信息,包括如下具体步骤: SI.给定训练数据集,包含三个部分:检索词集合Q= 关联文档集合 ? = {功....,1?丨和文档相关等级标记集合兄=..., .丨,其中,N是训练集中检索词的 个数;检索词%eO包含有Iii篇关联文档:A=i每个文档Clij (j=l,…,都 使用一个特征向量Xij表示,每个维度对应一个检索词-文档对特征,如PageRank,TF*IDF 等;i?;-丨r.tl..…丨,其中,代表屯与检索词qi的相关程度。 S2.对于任意检索词fteS,检索词-文档对t作为一个决策单元,从文档特征向 量Xij或者文档相关等级!Tij中选择一部分特征作为输入变量,一部分特征作为输出变量,构 建一个多输入-多输出的数据包络分析模型。 S3.对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最 优权值向量。 S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本 模型集合〇 = 其中,M表示候选基本模型集合的大小,由于部分线 性规划无可行解,本文档来自技高网
...

【技术保护点】
一种基于数据包络分析的排序学习方法,包括如下步骤:S1.给定训练数据集,包含三个部分:检索词集合关联文档集合和文档相关等级标记集合其中,N是训练集中检索词的个数;检索词包含有ni篇关联文档:每个文档dij(j=1,...,ni)都使用一个特征向量xij表示,每个维度对应一个检索词‑文档对特征,如PageRank,TF*IDF等;其中,rij代表dij与检索词qi的相关程度;S2.对于任意检索词检索词‑文档对dij作为一个决策单元,从文档特征向量xij或者文档相关等级rij中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一个多输入‑多输出的数据包络分析模型;S3.对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权值向量;S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型集合Φ={ω1,...,ωm,...,ωM},其中M表示候选基本模型集合的大小,由于部分线性规划无最优解,M≤Σi=1Nni;]]>S5.从Φ中选取一个候选基本模型ωm,使用它预测训练集中每个文档的相关性分值,生成一组分值列表Sm={Sm1,...,SmN},其中Smi是一个ni维的向量,代表ωm对检索词qi所有关联文档的预测结果;S6.根据预测的Smi和检索词qi所有关联文档的真实相关等级Ri,计算候选基本模型ωm在qi上的排名精度Emi,把ωm在训练集中所有检索词的排名精度向量记为Em,即Em=(Em1,...,Emi,...,EmN);S7.根据Sij和Gij,评估候选基本模型ωi在qj上的排名精度Eij∈R,记ωi在训练集所有检索词上的排名精度向量为Ei=(Ei1,...,EiN);S8.重复步骤S5至S6,直到遍历尽Φ中的所有候选基本模型,使用所有候选基本模型的排名精度,构成一个M×N的排名精度矩阵E;S9.设定检索词的初始概率分布为Pi=1/N(i=1,...,N),初始集成模型f=0;S10.将步骤S9学习得到的基本模型ht,添加到集成模型f=f+βtht,计算集成模型在所有检索词上的精度向量其中表示集成模型f在检索词qi上的排名精度,并基于下式更新检索词的概率分布:Pi=ψ(Ei(f))]]>其中,ψ是一个单调递减函数,根据集成模型在不同检索词的表现做出相应调整,表现越好,相应检索词的概率值就下调,否则,则提升相应检索词的概率分值;S11.将步骤S9和S10重复T次,训练得到的集成模型是基本模型的线性组合:f=Σt=1Tβtht;]]>S12.输入测试集中检索词‑文档对的特征向量,使用步骤S11训练得到的集成模型f,预测文档的相关分值。...

【技术特征摘要】
2013.06.17 CN 201310236894.X1. 一种基于数据包络分析的排序学习方法,包括如下步骤:51. 给定训练数据集,包含三个部分:检索词集合Q-{qi.....办丨,关联文档集合 1)=彳£^、£^丨和文档相关等级标记集合兄=彳知....狄.\:丨,其中』是训练集中检索词的 个数;检索词φeQ包含有叫篇关联文档:A=Rh....Ch每个文档Clij (j=l,…,r〇都 使用一个特征向量Xij表示,每个维度对应一个检索词-文档对特征,如PageRank,TF*IDF 等;·β; = {r,i…其中,!Tij代表(Iij与检索词qi的相关程度;52. 对于任意检索词€Q,检索词-文档对M乍为一个决策单元,从文档特征向量Xij 或者文档相关等级中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一 个多输入-多输出的数据包络分析模型;53. 对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权 值向量;54. 重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型 集合Φ= {ωι,...,ωπ,...,ωΜ},其中M表示候选基本模型集合的大小,由于部分线性规划 无最优解,A/ ^55. 从Φ中选取一个候选基本模型ωπ,使用它预测训练集中每个文档的相关性分值, 生成一组分值列表Sm={sml,. . .,SmN},其中Smi是一个IIi维的向量,代表COm对检索词qi所 有关联文档的预测结果;56. 根据预测的Smi和检索词qi所有关联...

【专利技术属性】
技术研发人员:蒋春恒林文斌
申请(专利权)人:成都按图索骥网络科技有限公司
类型:发明
国别省市:四川;51

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1