一种文档的检索方法和装置制造方法及图纸

技术编号：4252933 阅读：216 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种文档的检索装置和方法，针对现有话题模型无法自动识别话题的问题而发明专利技术。本发明专利技术的装置包括：话题识别模块、随机游走模块、检索模块。方法包括：使用概率话题模型从文档集中识别话题，并根据识别到的话题得到文档的话题分布；对每个文档计算其话题层次的随机游走排序得分；根据查询关键词及话题，计算文档相对于该查询关键词的相关性得分，将话题层次随机游走的排序重要性得分和相关性得分相结合得到检索结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种检索技术，特别是指可以应用于网页检索的文档的检索装置及方法。
技术介绍
随着计算机和网络的普及，极大的改变了人们获取资讯的方式。但是如何从浩如烟海的万维网资讯中快速获得使用者所需的资料成为重要的研究课题。在万维网上，每一个网页都可以视为一个文档，而万维网可以认为是一个由无数个超级链接组合在一起的文档的集合。因此对于文档的检索中，其中很重要的一种方式就是基于超链接关系的分析。在现有技术的超链接关系的分析技术中，广泛应用到了随机游走。随机游走是基于随机数学理论，形式化地表述了行进随机步数的轨迹。例如现有的PageRank算法，其使用了随机游走技术通过万维网中的链接分析得到了每个页面的相对重要性程度。从直观上讲，一个网页如果出现在其他重要页面的超链接中，那么这个网页很可能也是一个重要的网页。其他基于随机游走的方法也相继提出，例如HITS。现有的随机游走方法仅仅使用了单一数值表示一个页面或文档的重要性，而没有考虑到其所讲述的内容中包含的话题信息。而异构网络中包含了丰富的潜在话题信息。因此，如果使用传统的随机游走模型对文档重要性进行排序，那些集中讨论热门话题的文档将更容易占领统治地位。例如，一个有关产品介绍或者在线订购的页面可能被大量的包含该产品信息的广告页面指向，这将会导致搜索系统在进行排序时会将其放置在靠前的位置上。因此，理想的解决办法就是该系统可以考虑页面中包含的潜在话题信息，并且根据不同的话题对于页面进行排序。对于不同话题的查询关键词，该模型根据话题层次的排序得分，系统可以返回给用户不同话题下的排序列表。近些时期，沿着该研究思路，...

【技术保护点】
一种文档的检索装置，其特征在于，包括：　　　　话题识别模块，所述话题识别模块利用概率话题模型从文档集中识别话题，并根据识别到的话题得到文档的话题分布；　　　　随机游走模块，所述随机游走模块根据话题分布对每个文档计算随机游走排序得分；检索模块，所述检索模块根据查询关键字计算文档对于该查询关键字的相关性得分，并根据随机游走排序得分与相关性得分结合得到检索结果。

【技术特征摘要】
一种文档的检索装置，其特征在于，包括话题识别模块，所述话题识别模块利用概率话题模型从文档集中识别话题，并根据识别到的话题得到文档的话题分布；随机游走模块，所述随机游走模块根据话题分布对每个文档计算随机游走排序得分；检索模块，所述检索模块根据查询关键字计算文档对于该查询关键字的相关性得分，并根据随机游走排序得分与相关性得分结合得到检索结果。2. 根据权利要求1所述的文档的检索装置，其特征在于，所述话题识别模块包括参数计算子模块，所述参数计算模块根据Gibbs采样方法计算话题Z上的后验概率分布其中d为文档集D中的一个文档，z为文档d中的话题；&为文档中的每个单词W《对应的话题A表示文档d中的第i个单词，，,表示除&外的统计数值；然后根据后验概率分布计算9和小，其中9为|D|个文档相关的文档-话题分布矩阵；小为I T I个话题相关的话题_单词的分布矩阵；话题识别子模块，所述话题识别模块根据9和小，使用LDA话题模型从文档集中识别话题，其中文档集D的似然度为尸(z,w i ，。)=nne xnne其中9 d为文档d在话题上的多项式分布，小z为话题Z在单词上的多项式分布；ndz是将话题Z关联到文档d的次数，nzv是单词Wv由话题Z生成的次数；V为互异单词的集合；多项式分布子模块，所述多项式分布模块根据所述话题识别模块识别的话题，生成文档的话题的多项式分布{P(z|d)};其中P(zld)是文档d生成话题Z的概率。3.根据权利要求1所述的文档的检索装置，其特征在于，所述随机游走模块包括随机游走排序得分计算子模块，以根据文档话题的多项式分布计算随机游走排序得分4A]4丄P(z,l力+ (l-A) J] (W，Z;) + (1 —去Z尸W,W，z》其中，r[d， z]为文档d在话题z上的排序得分；D为所有文档的集合；T为所有话题的集合；Z为文档d中的话题；A为预设的随机跳跃参数，即游动者以等概率随机跳到文档集中的不同文档；Y为随机游走者点击一条链接访问相同话题的文档4的概率，(1-Y)为随机游走者点击一条链接访问不同话题的文档4的概率；其中，P(d」dk，Zi)是从文档dk到4在相同话题Zi上的转移概率，表示为P(dld' ，Zi); P (dp Zj I dk， Zi)是从话题Zi的文档dk到话题Zj的文档的转移概率，表示为P (d， Zi I d'，Zj);则尸W = 777^/)(化I= P(Z/1《)P(z, I《)4. 根据权利要求1所述的文档的检索装置，其特征在于，所述检索模块包括概率计算子模块，所述概率计算模块计算由话题模型生成查询关键词q的概率<formula>formula see original document page 3</formula>其中e d为特定文档d在话题上的多项式分布；小z为特定的话题z在单词上的多项式分布；并采用语言模型计算查询关键词q从文档d中生成概率P^(qld); 查询关键词q与文档相关性得分<formula>formula see original document page 3</formula>步骤34、将步骤2所得话题层次随机游走的排序得分r[d，z]和相关性得分P(qld)相结合得到检索结果。5. 根据权利要求1所述的文档的检索装置，其特征在于，还包括关键字扩展模块，所述关键字扩展模块对查询关键字进行扩展，并对扩展的查询关键词q中的每个单词^.，根据以下公式的概率采样话题z :<formula>formula see original document page 3</formula>其中nqz是查询关键词q...

【专利技术属性】
技术研发人员：唐杰，杨子，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人