画像系统的标签词库更新方法技术方案

技术编号：10866710 阅读：407 留言：0更新日期：2015-01-07 07:56

本发明专利技术涉及画像系统的标签词库更新方法，其包括：获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本；当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统；推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中，将不存在向量距离大于第二阈值的标签候选词删除。本发明专利技术能够及时对标签词库进行更新，以更好地对用户进行描述。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息处理技术，具体涉及。
技术介绍
随着数据采集、存储技术的不断发展，大量的用户个人数据、社交数据、活动数据被记录下来，在精准营销、个性化推荐等领域均有着广泛应用。目前的画像系统多是根据某个企业用户的需求进行定制设计开发，数据来源单一。对于画像服务而言，标签体系是刻画用户特性的基础之一，要求有足够的覆盖面及细粒度，然而传统的标签体系通常有以下几个问题:1)固定的标签集合很难满足业务的弹性需求；2)上层标签太通用，无法描述特定的细分人群。另外，简单的关键词模型对通用类别词的效果不佳，并且缺少高质量多层多分类的模型训练数据。目前与本专利技术技术相关的技术有用户标签分析、标签推荐系统、文本分类、索引服务、海量数据处理架构等方面。 (I)用户行为分析用户行为分析的概念是对有关数据进行统计、分析，从中发现用户行为规律并将这些规律与网络营销策略相结合，从而发现目前网络营销活动中可能存在的问题，并为进一步修正或重新制定网络营销策略提供有效依据。用户行为分析的意义在于通过对用户行为监测获得的数据进行分析，可以让企业更加详细、清楚地了解用户的行为习惯，从而找出网站、推广渠道等企业营销环境存在的问题，有助于企业发掘高转化率页面，让企业的营销更加精准、有效，提高业务转化率，从而提升企业的收益。国外对网络用户行为的研究起步很早，从1994年开始就有机构对用户的使用行为进行初步的统计分析，探讨各类网络用户行为的表现、策略以及影响因素。Tillontson等人对多伦多大学的学生及教学人员使用网络的情况进行了调查和分析...
<a href="http://www.xjishu.com/zhuanli/55/201410572863.html" title="画像系统的标签词库更新方法原文来自X技术">画像系统的标签词库更新方法</a>

【技术保护点】
画像系统的标签词库更新方法，其特征在于，包括以下步骤：步骤1、获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本；步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统；步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中，将不存在向量距离大于第二阈值的标签候选词删除。

【技术特征摘要】
1.画像系统的标签词库更新方法，其特征在于，包括以下步骤: 步骤1、获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本；步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统；步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中，将不存在向量距离大于第二阈值的标签候选词删除。2.如权利要求1所述的标签词库更新方法，其特征在于，步骤3之后还有以下步骤: 步骤4、将与标签候选词的向量距离大于第...

【专利技术属性】
技术研发人员：石忠民，徐亚波，王树辰，何金城，
申请(专利权)人：广州索答信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人