本发明专利技术涉及画像系统的标签词库更新方法,其包括:获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。本发明专利技术能够及时对标签词库进行更新,以更好地对用户进行描述。
【技术实现步骤摘要】
本专利技术涉及计算机信息处理技术,具体涉及。
技术介绍
随着数据采集、存储技术的不断发展,大量的用户个人数据、社交数据、活动数据被记录下来,在精准营销、个性化推荐等领域均有着广泛应用。 目前的画像系统多是根据某个企业用户的需求进行定制设计开发,数据来源单一。对于画像服务而言,标签体系是刻画用户特性的基础之一,要求有足够的覆盖面及细粒度,然而传统的标签体系通常有以下几个问题:1)固定的标签集合很难满足业务的弹性需求;2)上层标签太通用,无法描述特定的细分人群。另外,简单的关键词模型对通用类别词的效果不佳,并且缺少高质量多层多分类的模型训练数据。 目前与本专利技术技术相关的技术有用户标签分析、标签推荐系统、文本分类、索引服务、海量数据处理架构等方面。 (I)用户行为分析 用户行为分析的概念是对有关数据进行统计、分析,从中发现用户行为规律并将这些规律与网络营销策略相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供有效依据。 用户行为分析的意义在于通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网站、推广渠道等企业营销环境存在的问题,有助于企业发掘高转化率页面,让企业的营销更加精准、有效,提高业务转化率,从而提升企业的收益。 国外对网络用户行为的研究起步很早,从1994年开始就有机构对用户的使用行为进行初步的统计分析,探讨各类网络用户行为的表现、策略以及影响因素。Tillontson等人对多伦多大学的学生及教学人员使用网络的情况进行了调查和分析,包括确定因特网的用户有哪些、他们性别和学历上存在哪些差异、上网地点、用因特网查询什么、对查找结构是否满意、对大学提供的上网设施是否满意、对系统改进的建议等。而国内研究基础相对比较薄弱,目前国内对用户行为的研究主要体现对我国网民的网络行为的统计、分析和比较,这其中包括对网民性另U、年龄、上网地点、上网方式、上网时间段以及网民文化程度,所从事的职业等不同角度进行分析。 现今的用户行为分析系统大多只是在某一单一数据源上进行分析,无法准确分析出用户在整体社会中的行为特点。而我们的系统支持多数据源的用户行为分析,并且对多数据源的分析结果进行整合,准确概括出用户的行为特征属性。 ⑵推荐系统 个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。 互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informat1noverload)问题。 解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。 推荐系统现已广泛应用于很多领域,其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。同时学术界对推荐系统的研究热度一直很高,逐步形成了一门独立的学科。 推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。 推荐系统有3个重要的模块:用户建模模块、推荐对象建模模块、推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。 推荐系统主要推荐方法: 基于内容推荐 基于内容的推荐(Content-based Recommendat1n)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。 基于内容推荐方法的优点是: I)不需要其它用户的数据,没有冷开始问题和稀疏问题。 2)能为具有特殊兴趣爱好的用户进行推荐。 3)能推荐新的或不是很流行的项目,没有新项目问题。 4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。 5)已有比较好的技术,如关于分类学习方面的技术已相当成熟。 缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。 协同过滤推荐 协同过滤推荐(CollaborativeFiltering Recommendat1n)技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。 协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来,基于其他用户对某一内容的评价来向目标用户进行推荐。 基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。 和基于内容的过滤方法相比,协同过滤具有如下的优点: I)能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。 2)共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。 3)有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的本文档来自技高网...
【技术保护点】
画像系统的标签词库更新方法,其特征在于,包括以下步骤:步骤1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。
【技术特征摘要】
1.画像系统的标签词库更新方法,其特征在于,包括以下步骤: 步骤1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本; 步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统; 步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。2.如权利要求1所述的标签词库更新方法,其特征在于,步骤3之后还有以下步骤: 步骤4、将与标签候选词的向量距离大于第...
【专利技术属性】
技术研发人员:石忠民,徐亚波,王树辰,何金城,
申请(专利权)人:广州索答信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。