对象级垂直搜索引擎个性化排序算法iRank本发明专利技术公开一种对象级垂直搜索引擎的个性化推荐算法iRank,该算法其基本思想是:对垂直领域对象级搜索引擎排序算法和用户行为进行深入细致的研究,通过收集垂直领域的信息构建行业本体库模型,运用数据挖掘领域情感分析和Eyetrack技术(互联网用户在当前页面的停留时间)收集用户行为信息,统计并构建用户趣模型和相似用户模型,最后将基于用户兴趣模型和相似用户模型的个性化推荐算法结合到搜索引擎的排序中。iRank算法可以智能地对对象级搜索引擎语义信息检索结果进行个性化的排序,影响返回对象的排序得分,实现对象集结果上的不同用户间的个性化排序。与传统搜索引擎的排序算法(PageRank,HITS)相比增加搜索引擎对用户兴趣的应变能力,有极大实际应用价值。
【技术实现步骤摘要】
本专利技术涉及对象级垂直搜索引擎领域中个性化搜索结果相关性排序的算法研究。
技术介绍
时代的发展,使得互联网网页规模以人类难以想象的速度爆炸性膨胀,信息过剩、 注意力稀缺的主要矛盾进一步深化。传统通用搜索的问题也越来越突出和深化,主要问题是无效信息过多(噪音数据多)、有效信息不足、有效信息非结构化、返回结果无个性化优化机制。下一代搜索引擎的发展趋势是更加智能,其中最重要的分支是对象级垂直搜索。在所垂直的领域,该技术能够为用户提供比通用搜索更多的领域内相关有效信息。在所垂直的领域内,该技术为用户提供的都是经过整理的、结构化的对象信息,从而大大降低无效信息的比例。个性化搜索引擎排序是指在普通搜索引擎相关性排序基础上,根据用户的背景, 使用记录和兴趣等调整排序算法,针对不同的用户提供不同的服务。与传统搜索引擎的排序算法(PageRank,HITS)相比,得利对象级垂直搜索引擎个性化排序算法iRank根据用户浏览网页时的行为和用户的特征信息,运用数据挖掘和个性化推荐技术预测用户对信息的需求,智能地对信息检索结果进行个性化的排序,为用户提供个性化的信息服务,增加搜索引擎对用户兴趣的应变能力,有极大市场应用前景。
技术实现思路
本专利技术提出一种对象级垂直搜索引擎的个性化推荐算法iRank,该算法将基于用户兴趣模型和相似用户模型的个性化推荐算法结合到对象级搜索引擎传统的语义排序算法中,影响返回对象的排序得分,实现对象集结果上的不同用户间的个性化排序。具体流程请看附图1。1.本专利技术中定义的一些基本数据结构。Ditem 每个对象化实体,包括餐馆、图书、商场等。2) feature 每个item的特征向量集合,不同种item拥有不同的feature向量。 如餐馆类item,feature向量的值包括餐馆名称、地址、菜系、推荐菜、人均消费等。3)user 基本的互联网用户U,每一个用户维护一个info(u)向量和一个 itemRating(u)向量。· info (u)向量记录该用户基本信息,包括注册年龄、职业、常登陆ip地址; itemRating(U)向量主要记录user u对item集合的评价打分值,这个向量中的的每一个维度值记录user对一个item的喜好评价得分,这个得分可以通过user对该item 的评论(情感分析技术)和该用户在item页面停留时间(eyetrack time)来确定。2.算法之中各个模块相关信息如下1)行业本体库模型存储各个item(对象)的结构化基本信息,包括每个对象的基本结构化信息和对象之间的相似度信息。构建item-item的矩阵MII,矩阵中每个值为itemA和itemB的相似度(0-10),通过itemA和itemB的feature向量来计算。2)语义分析模型基本的关键字语义级别搜索匹配模型,包括切词、同义词、查找匹配和相关度排序模型等子模型。3)用户兴趣模型用于构建用户和本体库对象之间的喜好兴趣关系,并对语义模型排序结进行基于用户兴趣模型的个性化推荐排序。运用情感分析器和eyetrack分析器构建user-item矩阵MUI,每行值为useru对应的itemRating (U)向量。4)相似用户模型用于构建用户和本体库对象之间喜好兴趣关系,并对用户兴趣模型排序结果再进行基于用户相似度模型的个性化推荐排序。构建user-user矩阵MUU, 每个值为一个userA和userB的相似度得分,范围(0_10),可通过A、B两用户兴趣模型的相似成都来计算。最后使用协同过滤Collaborative Filtering Algorithms (CF)之中的 user-based算法进行推荐。iRank算法的输入变量是用户在垂直领域的搜索关键词,输出就是搜索页面返回的符合条件的对象集合的个性化排序结果。以得利搜索餐饮垂直领域为例,比如,用户u在餐饮界面输入搜索关键词“川菜”,系统首先对输入的关键字在本体库里面进行语义级别的匹配排序;然后会根据用户u兴趣模型中HemRating(U)向量排序,找到到更适合用户u的川菜餐馆,并对之前语义匹配的item(对象)集合进行排序;最后参考数据库之中u的相似用户模型推荐给u的餐馆集合,对返回的川菜餐馆进一步排序,最大程度满足用户u对于 “川菜”的个性化搜索需求。返回页面的截图见附图2。附图说明图1为iRank算法流程2为对象级个性化搜索返回页面3为TMSK RIKTEXT情感分析算法流程具体实施例方式1.构建行业本体库模型。构建本体库模型主要工作就是根据数据库信息,建立每个item对象结构化信息, 以及item-item的相似矩阵Mil。以餐馆为例,我们为每个item餐馆的feature向量总结出如下特征(名称,菜系,地址、人均消费、优惠折扣、点评数)通过正则表达式和字符串匹配算法从抓取网页中抽取以上信息,构建item餐馆对象。本模型使用feature来计算item之间的相似度。具体计算方法如公式(1)所示。权利要求1.对象级垂直搜索引擎个性化排序算法iRank包括行业本体库模型用于构建本行业对象级信息库,包括每个对象的基本结构化信息和对象之间的相似度信息。语义分析模型用于对输入关键词进行语义级搜索匹配,包括切词、同义词、查找匹配和相关度排序模型等子模型。用户兴趣模型用于构建用户和本体库对象之间喜好兴趣关系,并对语义模型排序结进行基于用户兴趣模型的个性化推荐排序,包括情感分析器和eyetrack分析器。相似用户模型用于构建结构化用户之间的相似度信息,并对用户兴趣模型排序结果再进行基于用户相似度模型的个性化推荐排序,包括user-item矩阵和协同过滤个性化推荐器。2.根据权利要求1所述的算法,其特征是该行业本体库模型通过正则表达式和字符串匹配算法从抓取网页中抽取以上信息,构建item餐馆对象。3.根据权利要求2所述的算法,其特征是该行业本体库模型通过向量相似度计算法方法构建item-item的相似矩阵。4.根据权利要求3所述的算法,其特征是该语义分析模型通过使用 stanford-postagger 禾口 ictclas X^X^fmAW Query 切i司。5.根据权利要求4所述的算法,其特征是该查找匹配模型对切词集合和同义词集合在本体库对象的各个域(名称、地址和简介等)上进行关键字匹配。6.根据权利要求5所述的算法,其特征是该相关度排序模型通过匹配程度和词频等信息进行对匹配结果进行排序并返回给用户。7.根据权利要求6所述的算法,其特征是该用户兴趣模型中的情感分析器通过使用 Text-Miner Software Kit (TMSK)和 Rule Induction Kit for Text (RIKTEXT)工具来自动得到用户对餐馆整体和各个feature的喜好评价结果。8.根据权利要求7所述的算法,其特征是该用户兴趣模型通过eyetrack技术(互联网用户在当前页面的停留时间)来计算没有发表评论的user对item的喜好评价结果。9.根据权利要求8所述的算法,其特征是该相似用户模型的协同过滤器通过 user-based的推荐方法进行个性化推荐。10.根据权利要求9所述的算法,其特征是iRank算法采用语义分析模型、用户兴趣模型和相似用户模型三本文档来自技高网...
【技术保护点】
行基于用户相似度模型的个性化推荐排序,包括user-item矩阵和协同过滤个性化推荐器。等子模型。用户兴趣模型:用于构建用户和本体库对象之间喜好兴趣关系,并对语义模型排序结进行基于用户兴趣模型的个性化推荐排序,包括情感分析器和eyetrack分析器。相似用户模型:用于构建结构化用户之间的相似度信息,并对用户兴趣模型排序结果再进1.对象级垂直搜索引擎个性化排序算法iRank包括:行业本体库模型:用于构建本行业对象级信息库,包括每个对象的基本结构化信息和对象之间的相似度信息。语义分析模型:用于对输入关键词进行语义级搜索匹配,包括切词、同义词、查找匹配和相关度排序模型
【技术特征摘要】
【专利技术属性】
技术研发人员:倪毅,张惟师,
申请(专利权)人:得利在线信息技术北京有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。