一种推荐系列文档的方法和装置制造方法及图纸

技术编号:5215081 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种推荐系列文档的方法和装置,应用于文档分享平台。其中方法包括:获取上传文档的文档标题,将获取的文档标题进行字符归一化处理;将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。本发明专利技术满足了用户想看同一系列其它文档的阅读需求,使得用户无需通过搜索引擎或分类列表花时间自行查找,提高了用户的阅读体验,也满足了用户的潜在阅读需求。

【技术实现步骤摘要】
一种推荐系列文档的方法和装置
本专利技术涉及网络通信
,特别涉及一种推荐系列文档的方法和装。
技术介绍
随着网络技术的日益推广和普及,网络信息迅速增加,文档分享平台为用户上传 分享文档以及阅读分享文档提供了便利,其在海量的分享文档中提供搜索引擎和分类索引 以方便用户找到所需的文档。在用户阅读文档时,文档分享平台可以通过已建立的文档分类推荐当前阅读文档 的相关文档。现有技术中,在推荐相关文档时,通常按照与当前阅读文档的内容相关度推荐 相关度最高的前几个文档,或者推荐与当前阅读文档属于同一上传用户的文档。用户在上传文档时,对于内容很长的文档通常分为多个文件保存,即分成属于同 一个系列的多个文档,并将它们统一上传,例如,将《三国演义》分成《三国演义》第一集、《三 国演义》第二集和《三国演义》第三集等。或者,用户在上传文档时,对于已经属于同一系 列的多个文档进行统一上传,例如《大学英语第一册》、《大学英语第二册》、《大学英语第三 册》和《大学英语第四册》。当用户阅读系列文档中的其中一个文档时,往往希望接下来阅读 的是属于同一系列的其他文档并希望能够从推荐的相关文档中直接获取,例如,当用户当 前阅读的是《三国演义》第一集时,希望文档分享平台能够显著地推荐《三国演义》第二集。对于上述推荐需求,如果采用现有技术中相关文档的产生方式,无论是以相关度 方式产生推荐的相关文档,还是以属于同一上传用户的方式产生推荐的相关文档,推荐的 相关文档可能并不是与当前阅读的文档属于同一系列的文档。用户需要通过搜索引擎或分 类列表花时间自行查找,这显然为用户带来不便,降低了阅读体验。
技术实现思路
本专利技术提供了一种推荐系列文档的方法和装置,以便于为用户推荐与当前阅读的 文档属于同一系列的文档,提高用户的阅读体验。具体技术方案如下一种推荐系列文档的方法,应用于文档分享平台,该方法包括A、获取上传文档的文档标题,将获取的文档标题进行字符归一化处理;B、将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字 符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;C、将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。其中,步骤A中所述获取上传文档的文档标题具体包括以下策略从存储上传文档的文档元数据库中,抓取同一用户上传文档的文档标题,或者,抓 取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取 在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。步骤A中所述将获取的文档标题进行字符归一化处理具体包括A1、将所述获取的文档标题去除与模式匹配处理无关的字符;A2、将步骤A1处理后的各文档标题中序号部分采用预设的统一标识替代。所述步骤B具体包括B1、对进行字符归一化处理后的各文档标题进行公共字符串识别,以判断各文档 标题是否具有预设长度的公共字符串,并且确定进行字符归一化处理后的各文档标题中序 号标识的模式;B2、根据步骤B1的判断结果信息以及确定的模式信息,将具有预设长度的公共字 符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。所述步骤B2具体包括B21、根据步骤B1的判断结果信息以及确定的模式信息,如果连续M以上个文档标 题具有预设长度的公共字符串且具有相同模式的序号标识,则将所述M以上个文档标题对 应的文档归入同一个文档系列,以所述公共字符串为文档系列的系列名称;B22、对于后续满足归入当前文档系列的条件的文档标题,如果该文档标题与上一 个归入当前文档系列的文档标题间隔的文档标题在N个以内,则将该文档标题对应的文档 归入当前文档系列;如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标 题超过N个,则结束当前文档系列的归纳,转至执行步骤B21 ;所述满足归入当前文档系列 的条件为具有当前文档系列的系列名称的字符串且与当前文档系列中各文档的文档标题 具有相同模式序号标识;其中,M为2以上的整数,N为正整数。更进一步地,所述步骤C还包括将用户当前阅读的文档的相关文档推荐给用户。较优地,在将相关文档推荐给用户之前还包括对所述相关文档进行去重处理;其中,所述去重处理具体为将所述相关文档与用户当前阅读的文档属于同一文 档系列的文档取交集,再从所述相关文档中去除所述交集。所述将与用户当前阅读的文档属于同一文档系列的文档推荐给用户具体包括执行所述步骤A和步骤B的后台将步骤B之后获得的文档系列的信息加载至存储 单元;前台接收到包含用户当前阅读的文档信息的检索请求后,从所述存储单元获取与 用户当前阅读的文档属于同一文档系列的文档并推荐给用户。一种推荐系列文档的装置,应用于文档分享平台,该装置包括归一化处理单元、 模式匹配单元和系列文档推荐单元;所述归一化处理单元,用于获取上传文档的文档标题,将获取的文档标题进行字 符归一化处理后发送给所述模式匹配单元;所述模式匹配单元,用于将接收到文档标题进行模式匹配处理,使得具有相同公 共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;所述系列文档推荐单元,用于根据所述模式匹配单元的处理结果,将与用户当前 阅读的文档属于同一文档系列的文档推荐给用户。更进一步地,该装置还包括标题抓取单元,用于从存储上传文档的文档元数据库 中抓取文档标题,并将抓取的文档标题发送给所述归一化处理单元;其中,抓取文档标题包括以下策略抓取同一用户上传文档的文档标题,或者,抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取 在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。所述归一化处理单元具体包括字符清理模块和归一化处理模块;所述字符清理模块,用于将获取的文档标题去除与模式匹配处理无关的字符后发 送给所述归一化处理模块;所述归一化处理模块,用于将接收到的各文档标题中序号部分采用预设的同一标 识替代。所述模式匹配单元具体包括字符串识别模块、模式识别模块和系列归纳模块;所述字符串识别模块,用于对所述归一化处理单元发送来的文档标题进行公共字 符串识别,以判断各文档标题是否具有预设长度的公共字符串;所述模式识别模块,用于确定所述归一化处理单元发送来的文档标题中序号标识 的模式;所述系列归纳模块,用于根据所述字符串识别模块的判断结果信息和所述模式识 别模块确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标 题所对应的文档归入同一文档系列。更进一步地,该装置还包括相关文档推荐单元,用于将用户当前阅读的文档的相 关文档推荐给用户。具体地,所述相关文档推荐单元可以包括相关文档获取模块和去重处理模块;所述相关文档获取模块,用于获取用户当前阅读的文档的相关文档;所述去重处理模块,用于将所述相关文档与用户当前阅读的文档属于同一文档系 列的文档取交集,再从所述相关文档中去除所述交集。所述归一化处理单元和模式匹配单元设置在后台,所述系列文档推荐单元设置在 前台;所述模式匹配单元将获得的文档系列的信息加载至存储单元;所述系列文档推荐单元接收到包含用户当前阅读的文档信息的检索请求后,从所 述存储单元获取与用户当前阅读的文档属于同一文档系列的文档并推荐给用户。由以上技术方案可以看出,通过本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
一种推荐系列文档的方法,应用于文档分享平台,其特征在于,该方法包括A、获取上传文档的文档标题,将获取的文档标题进行字符归一化处理;B、将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;C、将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。2.根据权利要求1所述的方法,其特征在于,步骤A中所述获取上传文档的文档标题具 体包括以下策略从存储上传文档的文档元数据库中,抓取同一用户上传文档的文档标题,或者,抓取与 已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取在一 个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。3.根据权利要求1所述的方法,其特征在于,步骤A中所述将获取的文档标题进行字符 归一化处理具体包括A1、将所述获取的文档标题去除与模式匹配处理无关的字符;A2、将步骤A1处理后的各文档标题中序号部分采用预设的统一标识替代。4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括B1、对进行字符归一化处理后的各文档标题进行公共字符串识别,以判断各文档标题 是否具有预设长度的公共字符串,并且确定进行字符归一化处理后的各文档标题中序号标 识的模式;B2、根据步骤B1的判断结果信息以及确定的模式信息,将具有预设长度的公共字符串 且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。5.根据权利要求4所述的方法,其特征在于,所述步骤B2具体包括B21、根据步骤B1的判断结果信息以及确定的模式信息,如果连续M以上个文档标题具 有预设长度的公共字符串且具有相同模式的序号标识,则将所述M以上个文档标题对应的 文档归入同一个文档系列,以所述公共字符串为文档系列的系列名称;B22、对于后续满足归入当前文档系列的条件的文档标题,如果该文档标题与上一个归 入当前文档系列的文档标题间隔的文档标题在N个以内,则将该文档标题对应的文档归入 当前文档系列;如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题超 过N个,则结束当前文档系列的归纳,转至执行步骤B21 ;所述满足归入当前文档系列的条 件为具有当前文档系列的系列名称的字符串且与当前文档系列中各文档的文档标题具有 相同模式序号标识;其中,M为2以上的整数,N为正整数。6.根据权利要求1所述的方法,其特征在于,所述步骤C还包括将用户当前阅读的文 档的相关文档推荐给用户。7.根据权利要求6所述的方法,其特征在于,在将相关文档推荐给用户之前还包括对 所述相关文档进行去重处理;其中,所述去重处理具体为将所述相关文档与用户当前阅读的文档属于同一文档系 列的文档取交集,再从所述相关文档中去除所述交集。8.根据权利要求1至7任一权项所述的方法,其特征在于,所述将与用户当前阅读的文 档属于同一文档系列的文档推荐给用户具体包括执行所述步骤A和步骤B的后台将步骤B之后获得的文档系列的信息加载至存储单元;前台接收...

【专利技术属性】
技术研发人员:杨帆高超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1