一种移动广告平台寻找相似用户的方法技术

技术编号：14151694 阅读：229 留言：0更新日期：2016-12-11 14:51

本发明专利技术公开的一种移动广告平台寻找相似用户的方法，包含以下步骤：首先根据训练用户过滤之后的安装列表以及标签训练出一个L2正则的逻辑回归模型。对于一个新的用户安装列表，利用训练出的逻辑回归模型得到一个[0,1]之间的预测值，表示其为相似用户的概率。接着计算该用户安装列表中付费应用数，基本应用占比，平均付费价格特征，将这些特征与上一步的逻辑回归模型结果组合在一起，再训练出一个GBDT模型，最终预测用户是否为相似用户。本发明专利技术的方法，在较小计算量下，根据客户提供的种子用户，准确的将相似用户扩展出来。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及移动互联网领域，特别涉及一种移动广告平台寻找相似用户的方法。
技术介绍
现有技术中，对移动广告平台相似用户的寻找也提出了一些解决方案。例如，在Audience segment expansion using distributed in-database k-means clustering(ADKDD2013)中，其主要通过以下技术方案来实现：通过提取用户相关的关键词或主题模型来作为每个用户的特征，然后利用机器学习中的聚类方法(例如k-means)对用户群进行聚类。种子用户所在的聚类中其他用户即为可扩展的用户。再例如，一种视频网站相似用户搜索系统和方法(申请号：201510142618.6申请日：2015-03-27)，在该技术方案中，主要通过以下技术方案来实现：步骤1，对用户观看内容进行统计分析，统计一段时间内的用户视频观看记录，结合视频内容描述词得到每个用户对每一种视频内容的观看次数和频率，其中，上述视频内容描述词通过视频标签、关键词以及视频标题分词来描述；步骤2，建立用户的倒排索引，根据上述步骤1中统计分析得到的观看记录，基于视频内容描述词建立用户的倒排索引，该索引形式以视频内容描述词作为索引关键字，以观看该描述词的所有用户标识及观看频率作为索引值；步骤3，进行相似用户搜索并计算相似性，利用种子用户的视频观看记录，以视频内容描述词为搜索关键字，在索引文件上进行相似用户的搜索，同时计算相应用户的相似性，得到初步的搜索结果；步骤4，进行搜索结果排序，利用相似性对初步搜索结果进行由大到小的排序，经过过滤处理得到最终的相似人群搜索结果。上述...
一种移动广告平台寻找相似用户的方法

【技术保护点】
一种移动广告平台寻找相似用户的方法，其特征在于，包含以下步骤：(1)目标App的开发者提交目标App现有的种子用户设备号列表；(2)获取目标App的非相似用户设备号列表；(3)利用系统级别的API获取到移动用户的App安装包列表；(4)安装包过滤：计算移动用户每个App的设备覆盖率，将设备覆盖率大于阈值M或者小于阈值N的App从App安装包列表里面剔除；其中阈值M、N根据实际需求设定，M大于N；(5)采用bag‑of‑words方法将移动用户安装包列表中剩下的app表达成1/0特征；(6)根据用户特征、种子用户设备号列表和非相似客户设备号列表，训练一个逻辑回归模型；(7)计算移动用户的三种特征：安装的基本应用比例、付费应用数、平均付费价格；(8)将逻辑回归模型的输出以及所述移动用户的三种特征作为输入，再训练出GBDT分类模型；(9)对候选集的每个移动用户，通过获取该移动用户的App安装列表，并将App安装列表表达成一个bag‑of‑words向量，先输入到逻辑回归模型中进行一遍预测，再加入用户安装的基本应用比例、付费应用数、平均付费价格这三个特征输入到GBDT模型中进行预测，从而预测该...

【技术特征摘要】
1.一种移动广告平台寻找相似用户的方法，其特征在于，包含以下步骤：(1)目标App的开发者提交目标App现有的种子用户设备号列表；(2)获取目标App的非相似用户设备号列表；(3)利用系统级别的API获取到移动用户的App安装包列表；(4)安装包过滤：计算移动用户每个App的设备覆盖率，将设备覆盖率大于阈值M或者小于阈值N的App从App安装包列表里面剔除；其中阈值M、N根据实际需求设定，M大于N；(5)采用bag-of-words方法将移动用户安装包列表中剩下的app表达成1/0特征；(6)根据用户特征、种子用户设备号列表和非相似客户设备号列表，训练一个逻辑回归模型；(7)计算移动用户的三种特征：安装的基本应用比例、付费应用数、平均付费价格；(8)将逻辑回归模型的输出以及所述移动用户的三种特征作为输入，再训练出GBDT分类模型；(9)对候选集的每个移动用户，通过获取该移动用户的App安装列表，并将App安装列表表达成一个bag-of-words向量，先输入到逻辑回归模型中进行一遍预测，再加入用户安装的基本应用比例、付费应用数、平均付费价格这三个特征输入到GBDT模型中进行预测，从而预测该用户是否为种子用户的相似用户。2.根据权利要求1所述移动广告平台寻找相似用户的方法，其特征在于，步骤(2)中，所述获取非相似用户设备号的方法包括：a、目标App的开发者直接提交一份种子用户的非相似用户设备号列表；b、从广告平台自有的设备列表中随机提取出与种子用户列表等量的设备号，作为非相似用户设备号列表。3.根据权利要求1所述移动广告平台寻找相似用户的方法，其特征在于，步骤(6)中，所述逻辑回归模型是一种线性分类模型，逻辑回归模型在线性回归的基础上，套用一个逻辑函数来得到最后的概率描述，逻辑回归通过优化方法极小化以下损失函数： J ( θ ) = - 1 m [ Σ i = 1 m y i log h θ ( x i ) + ( 1 ...

【专利技术属性】
技术研发人员：李百川，陈第，李展铿，蔡锐涛，甄勇，
申请(专利权)人：有米科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人