【技术实现步骤摘要】
本专利技术属于信息检索领域,涉及一种机器学习的方法,具体涉及一种排序学习方 法。
技术介绍
排序学习方法是一种有效的排名技术,利用监督型机器学习方法,通过优化损失 函数,从训练数据集中训练一个排序模型。排序学习在过去十年间发展迅速,已经成功地应 用于网络搜索引擎、机器翻译、推荐系统与生物信息等领域。 根据输入空间、输出空间、模型假设和损失函数的不同,排序学习方法可以分成三 类:逐点型、序对型和序列型,下面分别予以阐述: 逐点型排序学习方法将排名问题转化为传统的分类和回归问题,根据成熟的分 类和回归算法,使用分类错误率或者均方差构建损失函数,训练排序模型,比如文献Koby Crammer,YoramSinger,etal.Prankingwithranking.Advancesinneuralinformation processingsystems, 14 :641-647, 2001通过训练一个感知器模型,把训练样本映射到一 个全序集。 序对型排序学习算法的训练数据是成对的样本,根据模型假设预测序对的偏好 关系,结合真实相关等级,构造序对损失函数,从而建立优化排序模型,比如文献Chris Burges,TalShaked,ErinRenshaw,AriLazier,MattDeeds,NicoleHamilton,andGreg Hullender.Learningtorankusinggradientdescent.InProceedingsofthe22nd internationalconferenceon ...
【技术保护点】
一种基于数据包络分析的排序学习方法,包括如下步骤:S1.给定训练数据集,包含三个部分:检索词集合关联文档集合和文档相关等级标记集合其中,N是训练集中检索词的个数;检索词包含有ni篇关联文档:每个文档dij(j=1,...,ni)都使用一个特征向量xij表示,每个维度对应一个检索词‑文档对特征,如PageRank,TF*IDF等;其中,rij代表dij与检索词qi的相关程度;S2.对于任意检索词检索词‑文档对dij作为一个决策单元,从文档特征向量xij或者文档相关等级rij中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一个多输入‑多输出的数据包络分析模型;S3.对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权值向量;S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型集合Φ={ω1,...,ωm,...,ωM},其中M表示候选基本模型集合的大小,由于部分线性规划无最优解,M≤Σi=1Nni;]]>S5.从Φ中选取一个候选基本模型ωm,使用它预测训练集中每个文档的相关性分值,生成一组分值列表Sm={Sm1, ...
【技术特征摘要】
2013.06.17 CN 201310236894.X1. 一种基于数据包络分析的排序学习方法,包括如下步骤:51. 给定训练数据集,包含三个部分:检索词集合Q-{qi.....办丨,关联文档集合 1)=彳£^、£^丨和文档相关等级标记集合兄=彳知....狄.\:丨,其中』是训练集中检索词的 个数;检索词φeQ包含有叫篇关联文档:A=Rh....Ch每个文档Clij (j=l,…,r〇都 使用一个特征向量Xij表示,每个维度对应一个检索词-文档对特征,如PageRank,TF*IDF 等;·β; = {r,i…其中,!Tij代表(Iij与检索词qi的相关程度;52. 对于任意检索词€Q,检索词-文档对M乍为一个决策单元,从文档特征向量Xij 或者文档相关等级中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一 个多输入-多输出的数据包络分析模型;53. 对于Di中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权 值向量;54. 重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型 集合Φ= {ωι,...,ωπ,...,ωΜ},其中M表示候选基本模型集合的大小,由于部分线性规划 无最优解,A/ ^55. 从Φ中选取一个候选基本模型ωπ,使用它预测训练集中每个文档的相关性分值, 生成一组分值列表Sm={sml,. . .,SmN},其中Smi是一个IIi维的向量,代表COm对检索词qi所 有关联文档的预测结果;56. 根据预测的Smi和检索词qi所有关联...
【专利技术属性】
技术研发人员:蒋春恒,林文斌,
申请(专利权)人:成都按图索骥网络科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。