一种文本的相关性计算方法和装置制造方法及图纸

技术编号：11169493 阅读：141 留言：0更新日期：2015-03-19 04:23

本发明专利技术实施方式提出一种文本的相关性计算方法和装置。方法包括：接收第一字符串和第二字符串；计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。本发明专利技术实施方式提高了相关性判定的准确率，节约了存储空间并降低了成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本的相关性计算方法和装置
本专利技术实施方式涉及互联网应用
，更具体地，涉及一种文本的相关性计算方法和装置。
技术介绍
随着计算机技术和网络技术的飞速发展，互联网（Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。互联网上的各种应用层出不穷。搜索广告是互联网广告生态系统中一项非常重要的业务，它依附于搜索引擎，本质上是基于关键词的售卖匹配。广告主在商业推广的数据库中，除了提供用于展示的广告标题、描述之外，还要附加一些与该广告具有一定相关性的关键词（即购买词)，并指定匹配类型及出价以及定向匹配目标流量（即符合检索意图的用户）。在经典的匹配流程中，购买词形成了对广告的直接索引。当用户的查询词与广告主的购买词匹配，相关性达到一定程度，即认为满足了广告触发的初选条件(这里假设先忽略其他定向及过滤环节)，可以拉取对应的广告(标题、描述）出来做进一步的后续精选，例如点击率预估、广告排序、展示策略选择等。在检索（Retrieve)阶段，广告系统会利用用户的查询串，使用多种在线、离线的策略做购买词匹配。这里找到的购买词都是广告主在填写物料时指定的、与广告标题及描述相关的短文本。在线上系统中度量查询词（query)与候选购买词（bidterm)的相关性的本质是短文本之间的相关性。传统上有很多基于字符串字面匹配的方法，离线在线的评估方法也有差别，都存在一定的局限性。Google的Sahami等人提出利用短文本的网页搜索结果作为语义扩展，在此基础上计算短文本之间的语义相关...

【技术保护点】
一种文本的相关性计算方法，其特征在于，该方法包括：接收第一字符串和第二字符串；计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。

【技术特征摘要】
1. 一种文本的相关性计算方法，其特征在于，该方法包括：接收第一字符串和第二字符串；计算第一字符串与第二字符串的文本相关性特征值以及第一字符串与第二字符串的语义相关性特征值；基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成第一字符串与第二字符串的相关性特征值。2. 根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的文本相关性特征值包括：计算第一字符串与第二字符串基于编辑距离的相关性特征值，和/或计算第一字符串与第二字符串基于最长公共子序列的相关性特征值。3. 根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的语义相关性特征值包括：构建行业类别特征词词典；针对第一字符串，根据行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第一字符串类别分布；针对第二字符串，根据行业类别特征词词典获取每个词所属的类别分布，然后将各个词的类别分布乘以该词的全局逆文本频率指数权重再累加，以得到第二字符串类别分布；计算第一字符串和第二字符串的类别分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。4. 根据权利要求3所述的文本的相关性计算方法，其特征在于，所述构建行业类别特征词词典包括：基于人工标注的行业类别特征词集合，采用全文匹配分类方式对各个网页进行分类；对于拥有分类属性的网页进行全文切词，抽取类别特征词，并将所抽取的类别特征词合并入所述行业类别特征词集合，以构建行业类别特征词词典。5. 根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的语义相关性特征值包括：针对第一字符串，获取每个词所属的主题分布，然后将该第一字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第一字符串的主题分布；针对第二字符串，获取每个词所属的主题分布，然后将该第二字符串中所有词的主题分布乘以该词的全局逆文本频率指数权重再累加，以得到该第二字符串的主题分布；计算第一字符串和第二字符串的主题分布的余弦夹角相似度，以得到第一字符串和第二字符串的语义相关性特征值。6. 根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的语义相关性特征值包括：计算第一字符串与第二字符串基于统计机器翻译的相关性特征值。7. 根据权利要求1所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的语义相关性特征值包括：计算第一字符串与第二字符串基于网页搜索结果的词粒度的语义相关性特征值。8. 根据权利要求1-7中任一项所述的文本的相关性计算方法，其特征在于，所述基于逻辑回归模型将所述文本相关性特征值与语义相关性特征值拟合成相关性特征值包括：针对计算出的第一字符串与第二字符串的文本相关性特征值以及语义相关性特征值，构建特征向量；利用所述特征向量构建训练样例，并针对所述训练样例使用二分类逻辑回归模型做训练，分别得到文本相关性特征值的权重、语义相关性特征值的权重以及偏置；利用文本相关性特征值的权重、文本相关性特征值、语义相关性特征值的权重、语义相关性特征值以及偏置，计算所述相关性特征值。9. 根据权利要求1-7中任一项所述的文本的相关性计算方法，其特征在于，所述计算第一字符串与第二字符串的语义相关性特征值包括下列中的至少一个：计算第一字符串与第二字符串的基于编辑距离的相关性特征值；计算第一字符串与第二字符串的基于最长公共子序列的相关性特征值；计算第一字符串与第二字符串的基于文本分类的相关性特征值；计算第一字符串与第二字符串的基于概率潜在语义分析PLSA的主题相关性特征值；计算第一字符串与第二字符串的基于统计机器翻译的相...

【专利技术属性】
技术研发人员：赫南，张文斌，姚伶伶，王莉峰，何琪，张博，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人