基于自然语言处理的社交网络广告推送方法技术

技术编号:18576872 阅读:36 留言:0更新日期:2018-08-01 12:00
本发明专利技术公开了一种基于自然语言处理的社交网络广告推送方法,包括获取用户的社交网络数据;对社交网络数据进行分词,生成词向量;训练多个预测模型,用于预测不同的用户属性,生成用户画像;将用户画像生成用户画像向量,将商品按照不同的维度生成商品向量;计算用户画像向量相似度高的用户点击率高的商品,计算与点击率高的商品向量相似度高的商品,并推荐给用户画像相似度高的用户。该方法简单高效,能根据社交网络信息自动生成用户画像,提高了广告投放的准确性和点击率。

Social networking advertising push method based on Natural Language Processing

The invention discloses a social network advertising push method based on Natural Language Processing, including obtaining social network data from users, dividing the social network data into words, generating word vectors, training multiple prediction models to predict different user attributes, generating user portrait, and generating user portrait to generate user portrait. Vector, product vectors are generated according to different dimensions, and goods with high user clicking rate are calculated with high similarity of user portrait vector, and goods with high similarity of commodity vectors with high click rate are calculated, and users with high similarity are recommended to users. This method is simple and efficient, and can automatically generate user portraits based on social network information, which improves the accuracy of advertising and click-through rate.

【技术实现步骤摘要】
基于自然语言处理的社交网络广告推送方法
本专利技术涉及一种社交网络的广告推送方法,具体地涉及一种基于自然语言处理的社交网络广告推送方法。
技术介绍
目前全球互联网用户总量已超30亿,而社交网络更是具有发展时间长,用户数量巨大等特点。其中,像脸谱(facebook)月活跃用户达到13.5亿,接近中国人口总数量。中国互联网巨头腾讯公司旗下的互动网站QQ空间活跃账户达6.45亿,微信朋友圈等用户数量也是巨大的。如此数量巨大的用户平台无论对平台本身而言还是对用户来说都是销售商品很好的平台,因为在QQ空间、朋友圈、微博等社交网络,人们喜欢发表文字、图片、定位,分享自己的兴趣爱好,所见所闻,转载有意思的文章等。以往的平台广告推送过于粗犷,只是简单地基于性别、年龄、查询信息来推荐。本算法则是基于自然语言处理对社交网络网络用户进行分析,预测出个人基本信息,如年龄、收入、职业、是否有房车、爱好等之后再进行精准广告推送,每个人的广告推送都具有个性化,使命中率和成交率都有更大提升。这项技术也可以用于那些商家在社交网络中发送广告和推销,预测出个人用户画像后根据不同用户推广不同的商品,相同用户画像的人购买的商品也会相似度比较高,例如20-30岁未婚从事金融工作的女性可能买高档口红的比较多,那么就可以给相近用户画像的人推荐相同和相近的商品。以SVM(latentdirichletallocation)模型为代表的机器模型是训练分类的一个比较成熟的技术,是由Vanpik领导的AT&TBell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术。SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。利用SVM建模挖掘出的用户信息对于广告推送十分有帮助。SVM模型已经在分类、数据挖掘及相关领域中得到广泛应用,并且在自然语言处理上方面获得了很大成功。
技术实现思路
针对上述存在的技术问题,本专利技术目的是:提供了一种基于自然语言处理的社交网络广告推送方法,该方法简单高效,能根据社交网络信息自动生成用户画像,提高了广告投放的准确性和点击率。本专利技术的技术方案是:一种基于自然语言处理的社交网络广告推送方法,包括以下步骤:S01:获取用户的社交网络数据;S02:对社交网络数据进行分词,生成词向量;S03:训练多个预测模型,用于预测不同的用户属性,生成用户画像;S04:将用户画像生成用户画像向量,将商品按照不同的维度生成商品向量;S05:计算用户画像向量相似度高的用户点击率高的商品,计算与点击率高的商品向量相似度高的商品,并推荐给用户画像相似度高的用户。优选的,所述步骤S01具体包括:通过爬虫每隔固定时间爬取或者直接读取用户的社交网络数据,对社交网络数据进行预处理,保留定位、原创和转发的语句信息。优选的,所述步骤S02具体包括:S21:对社交网络数据进行进一步处理,使用正则表达式去除纯数字语句、纯拼音语句、纯符号语句、无意义表情符号,得到社交网络文本数据;S22:创建基本信息分词词典,建立分词库和停用词库;S22:对社交网络文本数据进行切词处理,去除分词后的文本中的停用词;S24:用大量用户分词后的文本训练词向量,生成词向量;优选的,所述步骤S03中预测不同的用户属性,包括:使用词向量训练SVM分类模型和logistic模型,使用训练完成的SVM分类模型预测二分类属性,使用训练完成的logistic模型预测多分类属性。优选的,所述步骤S04具体包括:S41:把不同的用户画像的属性替换成数字,生成用户画像向量;S42:将商品按照大类、产品名称、品牌、品牌产品号四个维度生成商品向量。优选的,所述步骤S05中所述用户画像向量相似度高和商品向量相似度高通过计算不同向量间的距离得到,若距离小于设定阈值,则判定相似度高,计算公式为:式中,x1k和x2k分别为向量,k是向量的维数。与现有技术相比,本专利技术的优点是:1、通过自然语言处理分析社交网络信息,能够更详细的了解用户的信息,生成较为详细用户画像信息。2、挖掘的用户画像对于其他业务,例如用户风险分析,软件推广,销售等都是极具价值的。3、根据用户画像推荐商品,更加准确,更具个性化,提升了广告的点击率和商品的购买率。附图说明下面结合附图及实施例对本专利技术作进一步描述:图1为本专利技术方法的流程图;图2为本专利技术社交网络爬取流程图;图3为本专利技术社交网络个人用户画像挖掘流程图;图4为本专利技术广告推荐流程图。具体实施方式以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本专利技术而不限于限制本专利技术的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。实施例:本专利技术的基于自然语言处理的社交网络广告推送方法的社交网络是指微信、微博等发表个人意见,记录生活,转载文章的社交平台。文本内容包括用户的定位、发表的原创文字、转载的文章标题和公共号等文字。用户相似性计算是指用户画像向量间的距离。如图1所示,本专利技术的基于自然语言处理的社交网络广告推送方法,包括以下步骤:一、社交网络爬取及预处理如图2所示,从社交网络爬取数据后,设置一个定时器,当时间大于30天时,爬取最新的一个月的社交网络动态,保存到数据库。再将定时器重新归为0,每过一天定时器加1,等定时器为30时,再次爬取。得到原始社交网络数据后,对其进行预处理,删除无意义的点赞信息、评论信息,图片,视频等,这里的预处理可以使用Python语言编程。二、对社交网络个人信息挖掘如图3所示,根据社交网络信息特点对社交网络数据本进行进一步处理,使用正则表达式去除纯数字语句、纯拼音语句、纯符号语句、无意义表情符号,得到纯汉字文本的社交网络文本数据。然后使用Python自带的jieba分词系统对其进行中文切词、去停用词等操作,特别地,此步骤需要使用自定义的分词库和停用词库,以提高准确率。分词库和停用词库可以根据先验知识进行创建。用Python的包fasttext.cbow对大量用户分词后的文本训练词向量,生成词向量model。然后训练预测模型,不同的用户属性用不同方式来预测。性别、年龄为二分类属性用SVM训练模型预测,多分类属性用logistic模型预测。将训练集的词向量放入SVM模型进行训练,每次预测一个属性,调整适当的参数,经过若干次迭代过程后输出趋于稳定,能够获得用户画像的各个属性。然后用训练好的模型预测目标用户画像。本实施例SVM模型的参数设置为:test_size:样本占比为0.8,选取线性核函数,迭代次数为500次。对于logistic模型,需要在预测的分类下根据经验做少量的种子词,例如职业预测中程序员的种子词可以为Java、编程、程序员,debug等,再用词向量距离计算求出相近词合成完整的分类词典,统计社交网络切词中各个类别词典中词语出现的次数,再将次数用于logistic回归,参数设置为:每个属性下的种子词汇数设置为100个。本实验的模型为python版本,运行环境为Linux操作系统。三、将用户画像和商品转换成向量把不同的用户画像的属性替换成数字,生成用户画像向量;将商品按照大类、产品名称、品牌、品牌产品号四个维度生成商品向量。四、广告推送策略如图4所示,首先计算目标用户与其他的用户画像向本文档来自技高网
...

【技术保护点】
1.一种基于自然语言处理的社交网络广告推送方法,其特征在于,包括以下步骤:S01:获取用户的社交网络数据;S02:对社交网络数据进行分词,生成词向量;S03:训练多个预测模型,用于预测不同的用户属性,生成用户画像;S04:将用户画像生成用户画像向量,将商品按照不同的维度生成商品向量;S05:计算用户画像向量相似度高的用户点击率高的商品,计算与点击率高的商品向量相似度高的商品,并推荐给用户画像相似度高的用户。

【技术特征摘要】
1.一种基于自然语言处理的社交网络广告推送方法,其特征在于,包括以下步骤:S01:获取用户的社交网络数据;S02:对社交网络数据进行分词,生成词向量;S03:训练多个预测模型,用于预测不同的用户属性,生成用户画像;S04:将用户画像生成用户画像向量,将商品按照不同的维度生成商品向量;S05:计算用户画像向量相似度高的用户点击率高的商品,计算与点击率高的商品向量相似度高的商品,并推荐给用户画像相似度高的用户。2.根据权利要求1所述的基于自然语言处理的社交网络广告推送方法,其特征在于,所述步骤S01具体包括:通过爬虫每隔固定时间爬取或者直接读取用户的社交网络数据,对社交网络数据进行预处理,保留定位、原创和转发的语句信息。3.根据权利要求1所述的基于自然语言处理的社交网络广告推送方法,其特征在于,所述步骤S02具体包括:S21:对社交网络数据进行进一步处理,使用正则表达式去除纯数字语句、纯拼音语句、纯符号语句、无意义表情符号,得到社交网络文本数据;S22:创建基本信息分词词典,建立分词...

【专利技术属性】
技术研发人员:杨威刘艳黄刘生
申请(专利权)人:中国科学技术大学苏州研究院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1