一种对文本进行分发的方法和装置制造方法及图纸

技术编号:5275335 阅读:203 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种对文本进行分发的方法和装置,应用于包含至少两级栏目的栏目框架,其中方法包括:A、针对抓取的各文本分别执行下述分发步骤,分发步骤:将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子栏目。通过本发明专利技术能够减小文本分发的工作量和代价,缩短文本分发的时长,以方便栏目的灵活增减。

【技术实现步骤摘要】
一种对文本进行分发的方法和装置
本专利技术涉及互联网
,特别涉及一种对文本进行分发的方法和装置。
技术介绍
随着互联网在全球的普及,以及互联网应用的不断发展,网页上的文本信息呈爆 炸式增长,如何充分有效地利用网页上的文本信息,以及如何有效地组织这些文本信息并 提供给用户,已经渐渐成为数据挖掘领域中一个重要的研究方向且具有很高的行业价值。 目前,文本分类已经被应用到许多领域中,例如各栏目的新闻页面召回、分发电子邮件、生 成用户兴趣模式等等。文本分类就是将大量文本分发至不同的栏目下,其中栏目可以属于不同的分类, 也可以属于同一分类下的不同子类。现有文本的分发方式基于训练样本,即设置一个人工 分类处理过的文档集合,按照该训练样本进行训练来实现对文本的分发。但是,这种基于训 练样本的方式存在以下缺陷其一、训练样本的建立需要进行语料收集、训练模型建立等阶段,需要很大的工作 量,尤其是语料收集需要大量的专业领域的人工标注,造成文本分发的工作量和代价过大。其二、训练时长过长,训练样本的建立通常会带来周级别的分发时长。另外,由于训练样本是与栏目架构对应的,一旦栏目架构发生变化,就需要重新确 定训练样本,而训练样本是非常难以获取的且耗时很长,会更进一步带来文本分发的代价 过大、分发时长过长,不能够灵活地增减栏目。
技术实现思路
本专利技术提供了一种对文本进行分发的方法和装置,以能够减小文本分发的代价, 缩短分发时长,以方便栏目的灵活增减。具体技术方案如下一种对文本进行分发的方法,应用于包含至少两级栏目的栏目框架,该方法包 括A、针对抓取的各文本分别执行下述分发步骤分发步骤将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根 据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心 向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父 栏目或下一级子栏目。其中,栏目的所述分发匹配策略至少包括所述待分发文本的关键词与栏目的中 心向量之间的相似度超过针对该栏目设置的相似度阈值;或者,所述待分发文本的关键词与栏目的中心向量之间的相似度减去所述待分发文本 的关键词与同一栏目的反向向量之间的相似度后的结果超过针对该栏目设置的相似度阈值,其中所述栏目的反向向量基于预先为该栏目设置的反向词生成。较优地,所述步骤B具体包括以下方式中的一种或任意组合按照所述步骤A的方式被分发文本的栏目均为子栏目,将按照所述步骤A的方式 被分发文本的各子栏目下的所有文本或者排序在前附个的文本汇总至上一级父栏目,其 中附为预设的正整数;或者,按照所述步骤A的方式被分发文本的栏目均为父栏目,将按照所述步骤A的方式 被分发文本的父栏目下的所有文本分发至下一级子栏目;或者,按照所述步骤A的方式被分发文本的栏目包括父栏目和子栏目,将按照所述步骤 A的方式被分发文本的父栏目下的部分文本分发至未被分发文本的下一级子栏目。更进一步地,所述栏目可以包括具有展示文本属性的普通栏目以及具有不展示 文本属性的隐藏栏目。较优地,该方法进一步包括从设置了种子词的栏目下提取被分发文本的关键词, 将提取的关键词结合该栏目的种子词以形成该栏目新的中心向量。更进一步地,在所述步骤B之后,针对各栏目分别执行以下步骤C1、对栏目下的文本进行聚类,形成该栏目下一个以上的簇;C2、按照预设的头条选取策略,在各簇中分别选取头条文本作为各簇的表示。在所述步骤C2后还包括依据文本属性计算栏目下各文本的权重,利用簇内各文本的权重确定簇的权重, 依据簇的权重对栏目下的各簇进行排序;或者,按照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏 目下展示。其中,所述头条选取策略包括以下策略中的一种或任意组合选取文本发布时间 在设定范围内的文本、选取标题满足设定要求的文本、选取与簇中心向量相似度在设定范 围内的文本、选取文本质量满足预设要求的文本。具体地,各文本的权重Wpage的计算公式为(XWpase = --x 5{site) x (p(segcount).s At + a其中,a为预设的反比衰减时间因子,At为文本发布时间距当前的时间差, 6 (site)为文本质量因子的计算函数, (segcount)为转载率因子的计算函数。一种对文本进行分发的装置,应用于包含至少两级栏目的栏目框架,该装置包括 文本获取单元、第一分发单元和第二分发单元;所述文本获取单元,用于将抓取的各文本分别作为待分发文本送至所述第一分发 单元;所述第一分发单元,用于将当前待分发文本的关键词与各栏目的中心向量进行相 似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所 述栏目的中心向量基于预先为该栏目设置的种子词生成;所述第二分发单元,用于待所述第一分发单元完成对所有待分发文本的分发后, 按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一 级子栏目。其中,栏目的所述分发匹配策略至少包括所述待分发文本的关键词与栏目的中 心向量之间的相似度超过针对该栏目设置的相似度阈值;或者,所述待分发文本的关键词与栏目的中心向量之间的相似度减去所述待分发文本 的关键词与同一栏目的反向向量之间的相似度后的结果超过针对该栏目设置的相似度阈 值,其中所述栏目的反向向量基于预先为该栏目设置的反向词生成。所述第一分发单元分发的栏目均为子栏目,此时所述第二分发单元将所述第一分 发单元分发的各子栏目下的所有文本或排序在前m个的文本汇总至上一级父栏目,其中 N1为预设的正整数;或者,所述第一分发单元分发的栏目均为父栏目,此时所述第二分发单元将所述第一分 发单元分发的各子栏目下的所有文本分发至下一级子栏目;或者,所述第一分发单元分发的栏目包括父栏目和子栏目,此时所述第二分发单元将所 述第一分发单元分发的父栏目下的部分文本分发至未被分发文本的下一级子栏目。具体地,所述栏目包括具有展示文本属性的普通栏目以及具有不展示文本属性 的隐藏栏目。较优地,该装置还包括关键词提取单元,用于从设置了种子词的栏目下提取被分 发文本的关键词,将提取的关键词结合该栏目的种子词以形成该栏目新的中心向量并提供 给所述第一分发单元。更进一步地,该装置还包括文本聚类单元和头条选取单元;所述文本聚类单元,用于根据所述第一分发单元和所述第二分发单元的分发结 果,对栏目下的文本进行聚类,形成各栏目下一个以上的簇;所述头条选取单元,用于按照预设的头条选取策略,在各簇中分别选取头条文本 作为各簇的表示。较优地,该装置还包括簇排序单元或者焦点选取单元中的一种或全部;所述簇排序单元,用于依据文本属性计算栏目下各文本的权重,利用簇内各文本 的权重确定簇的权重,依据簇的权重对栏目下的各簇进行排序;所述焦点选取单元,用于根据所述第一分发单元和所述第二分法单元的分发结 果,按照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏目下 展不。其中,所述头条选取策略包括以下策略中的一种或任意组合选取文本发布时间 在设定范围内的文本、选取标题满足设定要求的文本、选取与簇中心向量相似度在设定范 围内的文本、选取文本质量满足预设要求的文本。具体地,各文本的本文档来自技高网...

【技术保护点】
一种对文本进行分发的方法,应用于包含至少两级栏目的栏目框架,其特征在于,该方法包括:A、针对抓取的各文本分别执行下述分发步骤:分发步骤:将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子栏目。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡勋梁彭学政王广彬
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1