当前位置: 首页 > 专利查询>清华大学专利>正文

一种文档的检索方法和装置制造方法及图纸

技术编号:4252933 阅读:208 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种文档的检索装置和方法,针对现有话题模型无法自动识别话题的问题而发明专利技术。本发明专利技术的装置包括:话题识别模块、随机游走模块、检索模块。方法包括:使用概率话题模型从文档集中识别话题,并根据识别到的话题得到文档的话题分布;对每个文档计算其话题层次的随机游走排序得分;根据查询关键词及话题,计算文档相对于该查询关键词的相关性得分,将话题层次随机游走的排序重要性得分和相关性得分相结合得到检索结果。

【技术实现步骤摘要】

本专利技术涉及一种检索技术,特别是指可以应用于网页检索的文档的检索装置及方法。
技术介绍
随着计算机和网络的普及,极大的改变了人们获取资讯的方式。但是如何从浩如烟海的万维网资讯中快速获得使用者所需的资料成为重要的研究课题。在万维网上,每一个网页都可以视为一个文档,而万维网可以认为是一个由无数个超级链接组合在一起的文档的集合。因此对于文档的检索中,其中很重要的一种方式就是基于超链接关系的分析。 在现有技术的超链接关系的分析技术中,广泛应用到了随机游走。随机游走是基于随机数学理论,形式化地表述了行进随机步数的轨迹。例如现有的PageRank算法,其使用了随机游走技术通过万维网中的链接分析得到了每个页面的相对重要性程度。从直观上讲,一个网页如果出现在其他重要页面的超链接中,那么这个网页很可能也是一个重要的网页。其他基于随机游走的方法也相继提出,例如HITS。 现有的随机游走方法仅仅使用了单一数值表示一个页面或文档的重要性,而没有考虑到其所讲述的内容中包含的话题信息。而异构网络中包含了丰富的潜在话题信息。 因此,如果使用传统的随机游走模型对文档重要性进行排序,那些集中讨论热门话题的文档将更容易占领统治地位。例如,一个有关产品介绍或者在线订购的页面可能被大量的包含该产品信息的广告页面指向,这将会导致搜索系统在进行排序时会将其放置在靠前的位置上。因此,理想的解决办法就是该系统可以考虑页面中包含的潜在话题信息,并且根据不同的话题对于页面进行排序。对于不同话题的查询关键词,该模型根据话题层次的排序得分,系统可以返回给用户不同话题下的排序列表。 近些时期,沿着该研究思路,有一些研究工作已经展开。例如话题敏感随机游走试图通过为每个页面引入分值向量突破单一重要性得分的限制。具体来讲,该方法假设每个页面都有很多相关联的话题,并使用偏向因子表示特定话题上的重要性。Nie等人研究了万维网搜索中的话题链接分析问题,并提出了话题PageRank以及话题HITS模型。但是,在这些方法中存在着严重的不足所有的话题都需要预先指定,因此这些排序模型不易于扩展到新的领域中。
技术实现思路
针对现有技术中存在的缺陷和不足,本专利技术的目的是提供一种文档重要性的排序装置及方法,以及应用上述的排序装置和方法对网页和文档进行检索的检索装置及方法,有效地解决现有的检索中排序不能够很好的适用于异构学术网络的问题。为了达到上述目的,本专利技术还提出了一种文档的检索装置,其特征在于,包括 话题识别模块,所述话题识别模块利用概率话题模型从文档集中识别话题,并根据识别到的话题得到文档的话题分布;5 随机游走模块,所述随机游走模块根据话题分布对每个文档计算随机游走排序得 分; 检索模块,所述检索模块根据查询关键字计算文档对于该查询关键字的相关性得 分,并根据随机游走排序得分与相关性得分结合得到检索结果。 其中,所述话题识别模块包括 参数计算子模块,所述参数计算模块根据Gibbs采样方法计算话题z上的后验概率分布 2 +a ;二 +/ 其中d为文档集D中的一个文档,z为文档d中的话题;^为文档中的每个单词w《 对应的话题A表示文档d中的第i个单词,,,表示除&外的统计数值; 然后根据后验概率分布计算e和(k其中e为|d|个文档相关的文档-话题分布矩阵;小为I T I个话题相关的话题_单词的分布矩阵; 话题识别子模块,所述话题识别模块根据9和小,使用LDA话题模型从文档集中 识别话题,其中文档集D的似然度为尸(z,wi0,①)二nrKnn《。 其中9d为文档d在话题上的多项式分布,c^为话题z在单词上的多项式分布; ndz是将话题z关联到文档d的次数,、是单词wv由话题z生成的次数;V为互异单词的集合. 多项式分布子模块,所述多项式分布模块根据所述话题识别模块识别的话题,生 成文档的话题的多项式分布{P(z|d)};其中P(zld)是文档d生成话题Z的概率。 其中,所述随机游走模块包括 随机游走排序得分计算子模块,以根据文档话题的多项式分布计算随机游走排序 得分WW I ( ) + (1 一 * S尸(,;1 ', Zv ) W,z,]丄尸(z,l力+ (1一义)J]I I 丄乂'W 其中,r[d, z]为文档d在话题z上的排序得分;D为所有文档的集合;T为所有话 题的集合;z为文档d中的话题;A为预设的随机跳跃参数,即游动者以等概率随机跳到文 档集中的不同文档;Y为随机游走者点击一条链接访问相同话题的文档4的概率,(1-Y) 为随机游走者点击一条链接访问不同话题的文档4的概率; 其中,P(d」dk,Zi)是从文档dk到4在相同话题Zi上的转移概率,表示为P(dld', Zi) ;P(dy Zj|dk, Zi)是从话题Zi的文档dk到话题Zj的文档4的转移概率,表示为P(d, zjd' , Zj);则尸W I= rF^JP(^ I《,=I c/,)尸0,1《)i M』 q 其中,所述检索模块包括6 概率计算子模块,所述概率计算模块计算由话题模型生成查询关键词q的概率 PLDA(q|d),尸皿, =n尸 i《=n iz' & ia)we《 其中ed为特定文档d在话题上的多项式分布;(^为特定的话题z在单词上的多项式分布; 并采用语言模型计算查询关键词q从文档d中生成概率P^(qld); 查询关键词q与文档相关性得分P (q | d) = PLM (q | d) X PLDA (q | d); 步骤34、将步骤2所得话题层次随机游走的排序得分r[d, z]和相关性得分P(q|d)相结合得到检索结果。 其中,所述装置还包括 关键字扩展模块,所述关键字扩展模块对查询关键字进行扩展,并对扩展的查询关键词q中的每个单词%,,根据以下公式的概率采样话题z : 一 i、 《+ 尸k. l-+ )2>:; +<v+a . 其中nqz是查询关键词q按照多项式分布采样话题z的次数;a q是查询关键词q 的相关多项式LDA先验;nd表示在步骤l全部文档数目,a和13分别为多项式分布9和 小的Dirichlet先验。同时,本专利技术还提出了一种文档的检索方法,包括 步骤1、使用概率话题模型从文档集中识别话题,并根据识别到的话题得到文档的 话题分布; 步骤2、利用话题分布对每个文档计算其话题层次的随机游走排序得分; 步骤3、根据查询关键词及话题,计算文档相对于该查询关键词的相关性得分,将话题层次随机游走的排序重要性得分和相关性得分相结合得到检索结果。 其中,所述步骤1具体为 步骤11、根据Gibbs采样方法计算话题Z上的后验概率分布 ,' za__ 其中d为文档集D中的一个文档,Z为文档d中的话题;、为文档中的每个单词W, 对应的话题A表示文档d中的第i个单词,,,表示除&外的统计数值; 步骤12、根据后验概率分布计算e和cK其中e为|d|个文档相关的文档-话题分布矩阵;小为|T|个话题相关的话题-单词的分布矩阵; 步骤13、使用LDA话题模型从文档集中识别话题,其中文档集D的似然度为,,W|0,o)=nncne 其中9d为文档d在话题上的多项式分布,(K为话题z在单词上的多项式分布;7ndz是将话题z关联到文档d的次本文档来自技高网
...

【技术保护点】
一种文档的检索装置,其特征在于,包括:    话题识别模块,所述话题识别模块利用概率话题模型从文档集中识别话题,并根据识别到的话题得到文档的话题分布;    随机游走模块,所述随机游走模块根据话题分布对每个文档计算随机游走排序得分;检索模块,所述检索模块根据查询关键字计算文档对于该查询关键字的相关性得分,并根据随机游走排序得分与相关性得分结合得到检索结果。

【技术特征摘要】
一种文档的检索装置,其特征在于,包括话题识别模块,所述话题识别模块利用概率话题模型从文档集中识别话题,并根据识别到的话题得到文档的话题分布;随机游走模块,所述随机游走模块根据话题分布对每个文档计算随机游走排序得分;检索模块,所述检索模块根据查询关键字计算文档对于该查询关键字的相关性得分,并根据随机游走排序得分与相关性得分结合得到检索结果。2. 根据权利要求1所述的文档的检索装置,其特征在于,所述话题识别模块包括 参数计算子模块,所述参数计算模块根据Gibbs采样方法计算话题Z上的后验概率分布其中d为文档集D中的一个文档,z为文档d中的话题;&为文档中的每个单词W《对应 的话题A表示文档d中的第i个单词,,,表示除&外的统计数值;然后根据后验概率分布计算9和小,其中9为|D|个文档相关的文档-话题分布矩 阵;小为I T I个话题相关的话题_单词的分布矩阵;话题识别子模块,所述话题识别模块根据9和小,使用LDA话题模型从文档集中识别 话题,其中文档集D的似然度为尸(z,w i ,。)=nne xnne其中9 d为文档d在话题上的多项式分布,小z为话题Z在单词上的多项式分布;ndz是 将话题Z关联到文档d的次数,nzv是单词Wv由话题Z生成的次数;V为互异单词的集合;多项式分布子模块,所述多项式分布模块根据所述话题识别模块识别的话题,生成文 档的话题的多项式分布{P(z|d)};其中P(zld)是文档d生成话题Z的概率。3.根据权利要求1所述的文档的检索装置,其特征在于,所述随机游走模块包括随机游走排序得分计算子模块,以根据文档话题的多项式分布计算随机游走排序得分4A]4丄P(z,l力+ (l-A) J] (W,Z;) + (1 —去Z尸W,W,z》其中,r[d, z]为文档d在话题z上的排序得分;D为所有文档的集合;T为所有话题的集合;Z为文档d中的话题;A为预设的随机跳跃参数,即游动者以等概率随机跳到文档集 中的不同文档;Y为随机游走者点击一条链接访问相同话题的文档4的概率,(1-Y)为随 机游走者点击一条链接访问不同话题的文档4的概率;其中,P(d」dk,Zi)是从文档dk到4在相同话题Zi上的转移概率,表示为P(dld' ,Zi); P (dp Zj I dk, Zi)是从话题Zi的文档dk到话题Zj的文档的转移概率,表示为P (d, Zi I d',Zj);则尸W = 777^/)(化I= P(Z/1《)P(z, I《)4. 根据权利要求1所述的文档的检索装置,其特征在于,所述检索模块包括 概率计算子模块,所述概率计算模块计算由话题模型生成查询关键词q的概率<formula>formula see original document page 3</formula>其中e d为特定文档d在话题上的多项式分布;小z为特定的话题z在单词上的多项式分布;并采用语言模型计算查询关键词q从文档d中生成概率P^(qld); 查询关键词q与文档相关性得分<formula>formula see original document page 3</formula>步骤34、将步骤2所得话题层次随机游走的排序得分r[d,z]和相关性得分P(qld)相 结合得到检索结果。5. 根据权利要求1所述的文档的检索装置,其特征在于,还包括关键字扩展模块,所述关键字扩展模块对查询关键字进行扩展,并对扩展的查询关键 词q中的每个单词^.,根据以下公式的概率采样话题z :<formula>formula see original document page 3</formula>其中nqz是查询关键词q...

【专利技术属性】
技术研发人员:唐杰杨子
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1