图书交叉阅读方法技术

技术编号：9906959 阅读：135 留言：0更新日期：2014-04-11 05:58

本发明专利技术公开了一种图书交叉阅读方法。图书交叉阅读推荐技术本质上是一种基于文档的检索，即将一个文档作为查询，去检索语义相似的其他文档，图书交叉阅读推荐技术首先将每个图书章节通过语义相似敏感哈希算法生成文档指纹，并保证两个语义相似的图书章节的文档指纹其海明距离也相近，然后将文档指纹和图书元数据、章节标题等异构信息统一建立索引，最后基于用户的访问日志和图书元数据信息，重排序候选推荐文档。本发明专利技术将图书章节投影到语义相关的文档指纹中，并将文档指纹、元数据信息、章节标题、用户点击等异构信息融入到统一索引中，基于用户的阅读章节，快速有效地推荐语义相关的其他章节，辅助用户对图书内容的理解、实现交叉阅读。

全部详细技术资料下载

【技术实现步骤摘要】
图书交叉阅读方法
本专利技术涉及图书内容检索方法，尤其涉及一种图书交叉阅读方法。
技术介绍
随着数字图书馆的日益发展，用户在阅读图书时，希望能够阅读与当前内容相关的其他图书章节，迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。图书交叉阅读本质上是一种基于文档的查询（querybydocument），即将一个文档作为查询(query)，去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索，也就是查询词一般较短。如果直接采用传统的文本检索方法，则性能会下降。比如，如果采用倒排索引的方法，那么由于查询文档中含有较多的词汇，于是合并每个词汇的检索结果需要耗费较长的时间。文档也可以表达成高维向量，于是querybydocument可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如，相似度哈希算法可以将相似的文档投影为相似的指纹（即，压缩的二进制码），可用于文档相似检测和检索。然而，在相似度哈希算法中，所有的单词被同等看待，而不考虑单词的语义信息。然而，文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言，越能反映文档语义的单词越重要，所以需要把这些信息也融入到文档指纹中，使得文档指纹更加能反映主题。此外，即使把图书章节都转化为了二进制码形式的文档指纹，从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节（以小节为单位），则100万册图书可形成5000万个指纹，传统采用线性扫描的文档指纹检索方式将不再适用。另外，除了文档内容外，图书的元数据信息、章节标题、用户的点击等信息在文档相似检索...
图书交叉阅读方法

【技术保护点】
一种图书交叉阅读方法，其特征在于包括它的步骤如下：(1)构建图书章节指纹：融合图书章节特征向量和图书类别特征向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈希算法构建图书章节指纹；(2)构建统一索引：将图书章节指纹转变为语义单词集合，并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引；(3)图书章节推荐：依据图书章节间的距离，为用户推荐相关图书章节，并基于用户的访问行为，利用流形排序算法进行重排序。

【技术特征摘要】
1.一种图书交叉阅读方法，其特征在于包括它的步骤如下：(1)构建图书章节指纹：融合图书章节特征向量和图书类别特征向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈希算法构建图书章节指纹；(2)构建统一索引：将图书章节指纹转变为语义单词集合，并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引；(3)图书章节推荐：依据图书章节间的距离，为用户推荐相关图书章节，并基于用户的访问行为，利用流形排序算法进行重排序；所述的步骤(1)具体包括：2.1对于所有的图书，根据目录将一本图书拆分为章节集合，每个章节作为一个文档进行保存，同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存；2.2对所有的章节进行自然语言处理，通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语，将章节转变为单词的集合；2.3根据章节所在图书的分类，构建每个分类的章节集合，分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值：tfidf(t,d)＝tf(t,d)*idf(t,D),d∈Dtfidf(t,c)＝tf(t,c)*idf(t,C),c∈C其中tf(t,d)是指单词t在文档d中出现的次数，idf(t,D)被称为逆文档频率，由总文档数目|D|除以包含单词t的文档的数目，再将得到的商取对数计算得到，tf(t,c)是指单词t在分类c中出现的次数，idf(t,C)则由总分类数|C|除以包含单词t的分类的数目，再将得到的商取对数计算得到；当tfidf(t,c)大时，表示单词t在分类c中常出现，而在其他的分类中则不常出现，此时单词t被认为是分类c的主题相...

【专利技术属性】
技术研发人员：鲁伟明，杨善松，魏宝刚，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人