一种文本的相关性计算方法和装置制造方法及图纸

技术编号:11169493 阅读:130 留言:0更新日期:2015-03-19 04:23
本发明专利技术实施方式提出一种文本的相关性计算方法和装置。方法包括:接收第一字符串和第二字符串;计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。本发明专利技术实施方式提高了相关性判定的准确率,节约了存储空间并降低了成本。

【技术实现步骤摘要】
一种文本的相关性计算方法和装置
本专利技术实施方式涉及互联网应用
,更具体地,涉及一种文本的相关性计 算方法和装置。
技术介绍
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、 学习和工作中发挥的作用也越来越大。互联网上的各种应用层出不穷。 搜索广告是互联网广告生态系统中一项非常重要的业务,它依附于搜索引擎,本 质上是基于关键词的售卖匹配。广告主在商业推广的数据库中,除了提供用于展示的广告 标题、描述之外,还要附加一些与该广告具有一定相关性的关键词(即购买词),并指定匹配 类型及出价以及定向匹配目标流量(即符合检索意图的用户)。在经典的匹配流程中,购买 词形成了对广告的直接索引。当用户的查询词与广告主的购买词匹配,相关性达到一定 程度,即认为满足了广告触发的初选条件(这里假设先忽略其他定向及过滤环节),可以拉 取对应的广告(标题、描述)出来做进一步的后续精选,例如点击率预估、广告排序、展示策 略选择等。 在检索(Retrieve)阶段,广告系统会利用用户的查询串,使用多种在线、离线的策 略做购买词匹配。这里找到的购买词都是广告主在填写物料时指定的、与广告标题及描述 相关的短文本。在线上系统中度量查询词(query)与候选购买词(bidterm)的相关性的本 质是短文本之间的相关性。 传统上有很多基于字符串字面匹配的方法,离线在线的评估方法也有差别,都存 在一定的局限性。Google的Sahami等人提出利用短文本的网页搜索结果作为语义扩展, 在此基础上计算短文本之间的语义相关性,比单纯的基于词的效果更好。马萨诸塞大学的 Metzler和Microsoft的Dumais等人也尝试了多种短文本表示的方法用于计算语义相关 性。 然而,传统的基于文档中词向量空间模型的计算方法,在短文本上面临特征稀疏 的问题。同时,由于短文本的分词结果依赖于语言模型,并不能保证不同词切分的一致,也 会在一定程度上加剧向量的稀疏。因此,传统的基于文档中词向量空间模型的计算方法,具 有相关性判定准确率不高的缺点。 而且,在传统的基于文档中词向量空间模型的计算方法中,需要大量存储空间来 储存词向量,因此还浪费了存储空间并提高了成本。
技术实现思路
本专利技术实施方式提出一种文本的相关性计算方法,以提高相关性判定的准确率。 本专利技术实施方式提出一种文本的相关性计算装置,以提高相关性判定的准确率。 本专利技术实施方式的技术方案如下: 一种文本的相关性计算方法,该方法包括: 接收第一字符串和第二字符串; 计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符 串的语义相关性特征值; 基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字 符串与第二字符串的相关性特征值。 一种文本的相关性计算装置,该装置包括字符串接收单元、相关性特征值计算单 元和相关性特征值拟合单元,其中: 字符串接收单元,用于接收第一字符串和第二字符串; 相关性特征值计算单元,用于计算第一字符串与第二字符串的文本相关性特征值 以及第一字符串与第二字符串的语义相关性特征值; 相关性特征值拟合单元,用于基于逻辑回归模型将所述文本相关性特征值与语义 相关性特征值拟合成第一字符串与第二字符串的相关性特征值。 从上述技术方案可以看出,在本专利技术实施方式中,接收第一字符串和第二字符串; 计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义 相关性特征值;基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第 一字符串与第二字符串的相关性特征值。由此可见,本专利技术实施方式避免了基于文档中词 向量空间模型的计算方法,因此避免了特征稀疏的问题,从而提高了相关性判定的准确率, 而且节约了存储空间并降低了成本。 而且,本专利技术实施方式提出基于编辑距离、最长公共子序列等字符串层面的文本 相关性作为基础特征,它们能从多个维度表达短串间文本相似度,能够较好处理很多短文 本不规范、分词不准或不一致的情况。 另外,本专利技术实施方式提出基于文本分类、概率隐含语义分析的相关性特征,可以 充分挖掘短文本与构成短文本的单词之间的隐含关系,从而计算两个短文本之间的类别联 系和主题联系,形成对文本相关性的特征补充。 还有,本专利技术实施方式提出了基于词的网页搜索结果的相关性特征,依赖的词典 资源数目可控,单机存储空间、计算速度都有很大幅度的改进,使得在线实现短串间的轻量 级语义相关性计算成为可能。 【附图说明】 图1为根据本专利技术实施方式文本的相关性计算方法流程图; 图2为根据本专利技术实施方式的相关性计算装置结构图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步 的详细描述。 在各种应用中,经常会涉及到两个短文本的相关性计算。两个短文本的相关 性指二者在语义上存在的关联程度,但不一定在字面上相似。相关性是一个比相似度 (Similarity)更广泛的概念,在很多产品和系统中都具有重要意义。短文本是指长度较短 的字符串,比如在某些网络应用中不超过38个汉字等。 购买词(Bidterm)是竞价广告系统中广告主提交的用于竞价的购买词;查询词 (Query)是搜索引擎中用户提交的搜索关键词。查询词和购买词一般都是长度较短的文本 字符串,可以把所有的查询词和购买词统称为短文本。 图1为根据本专利技术实施方式文本的相关性计算方法流程图。 如图1所示,该方法包括: 步骤101 :接收第一字符串和第二字符串。 在这里,第一字符串和第二字符串优选均为短文本。比如,第一字符串和第二字符 串分别可以是查询词、购买词等等。 步骤102 :计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与 第二字符串的语义相关性特征值。 文本层面的相关性特征主要度量短串之间的文本相似度。文本层面的相关性特征 只利用到了短串的文本信息,可以通过高效的优化算法即时计算得到。 比如,可以计算第一字符串与第二字符串基于编辑距离的相关性特征值,和/或 计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。 语义层面的相关性特征主要度量短串之间的概念、意义的相似度。 在一个实施方式中,计算第一字符串与第二字符串的语义相关性特征值包括: 构建行业类别特征词词典(比如一级行业类别特征词词典); 针对第一字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将 各个词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第一字符串类别分 布;针对第二字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词 的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第二字符串类别分布; 计算第一字符串和第二字符串的类别分布的余弦夹角相似度,以得到第一字符串 和第二字符串的语义相关性特征值。 优选地,所述构建行业类别特征词词典包括: 基于人工标注的行业类别特征词集合,采用全文匹配分类方式对各个网页进行分 类; 对于拥有分类属本文档来自技高网
...

【技术保护点】
一种文本的相关性计算方法,其特征在于,该方法包括:接收第一字符串和第二字符串;计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值;基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。

【技术特征摘要】
1. 一种文本的相关性计算方法,其特征在于,该方法包括: 接收第一字符串和第二字符串; 计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的 语义相关性特征值; 基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串 与第二字符串的相关性特征值。2. 根据权利要求1所述的文本的相关性计算方法,其特征在于,所述计算第一字符串 与第二字符串的文本相关性特征值包括: 计算第一字符串与第二字符串基于编辑距离的相关性特征值,和/或计算第一字符串 与第二字符串基于最长公共子序列的相关性特征值。3. 根据权利要求1所述的文本的相关性计算方法,其特征在于,所述计算第一字符串 与第二字符串的语义相关性特征值包括: 构建行业类别特征词词典; 针对第一字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个 词的类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第一字符串类别分布; 针对第二字符串,根据行业类别特征词词典获取每个词所属的类别分布,然后将各个词的 类别分布乘以该词的全局逆文本频率指数权重再累加,以得到第二字符串类别分布; 计算第一字符串和第二字符串的类别分布的余弦夹角相似度,以得到第一字符串和第 二字符串的语义相关性特征值。4. 根据权利要求3所述的文本的相关性计算方法,其特征在于, 所述构建行业类别特征词词典包括: 基于人工标注的行业类别特征词集合,采用全文匹配分类方式对各个网页进行分类; 对于拥有分类属性的网页进行全文切词,抽取类别特征词,并将所抽取的类别特征词 合并入所述行业类别特征词集合,以构建行业类别特征词词典。5. 根据权利要求1所述的文本的相关性计算方法,其特征在于, 所述计算第一字符串与第二字符串的语义相关性特征值包括: 针对第一字符串,获取每个词所属的主题分布,然后将该第一字符串中所有词的主题 分布乘以该词的全局逆文本频率指数权重再累加,以得到该第一字符串的主题分布;针对 第二字符串,获取每个词所属的主题分布,然后将该第二字符串中所有词的主题分布乘以 该词的全局逆文本频率指数权重再累加,以得到该第二字符串的主题分布; 计算第一字符串和第二字符串的主题分布的余弦夹角相似度,以得到第一字符串和第 二字符串的语义相关性特征值。6. 根据权利要求1所述的文本的相关性计算方法,其特征在于, 所述计算第一字符串与第二字符串的语义相关性特征值包括:计算第一字符串与第二 字符串基于统计机器翻译的相关性特征值。7. 根据权利要求1所述的文本的相关性计算方法,其特征在于, 所述计算第一字符串与第二字符串的语义相关性特征值包括:计算第一字符串与第二 字符串基于网页搜索结果的词粒度的语义相关性特征值。8. 根据权利要求1-7中任一项所述的文本的相关性计算方法,其特征在于,所述基于 逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成相关性特征值包括: 针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值, 构建特征向量; 利用所述特征向量构建训练样例,并针对所述训练样例使用二分类逻辑回归模型做训 练,分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置; 利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相 关性特征值以及偏置,计算所述相关性特征值。9. 根据权利要求1-7中任一项所述的文本的相关性计算方法,其特征在于, 所述计算第一字符串与第二字符串的语义相关性特征值包括下列中的至少一个: 计算第一字符串与第二字符串的基于编辑距离的相关性特征值; 计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值; 计算第一字符串与第二字符串的基于文本分类的相关性特征值; 计算第一字符串与第二字符串的基于概率潜在语义分析PLSA的主题相关性特征值; 计算第一字符串与第二字符串的基于统计机器翻译的相...

【专利技术属性】
技术研发人员:赫南张文斌姚伶伶王莉峰何琪张博
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1