【技术实现步骤摘要】
用户兴趣实体特征提取方法、装置、终端设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种用户兴趣实体特征提取方法、装置、终端设备及存储介质。
技术介绍
[0002]企业对用户提供的各种内容服务和商品都可以抽象成兴趣实体,而一段时间内用户产生的各种交互行为对应的兴趣实体构成了用户兴趣序列,这个序列从侧面反映了用户的特征。从用户兴趣序列中进行画像分析有助于企业更好地提高服务水平,蕴含着巨大的商业价值,其中最关键的步骤就是如何从兴趣序列中提取各个兴趣实体的特征。
[0003]但是兴趣实体的稀疏性给分析带来了巨大挑战,兴趣实体的整体数量是巨大的,但单个用户交互的兴趣实体却只是极少部分。目前的一些方案是先将兴趣实体预先分类,然后根据分类衍生统计特征,再基于统计特征做分析,还有一些方案是预设好关键词和对应评分,然后根据关键词和评分结合兴趣实体的相关语义信息进行打分,转化为数值特征。
[0004]以上提到的方案都存在一些不足,将兴趣实体进行预先分类的方案在信息粒度上会有较大损失,会导致兴趣实体特征提取的准确性不高,且同一个类别下兴趣实体反映用户特征的方向也可能有很大区别,从而导致特征提取结果存在偏差,另外如何设计兴趣实体的类别也需要大量的专家经验和人工参与。另一种预设关键词的方法也同样面临关键词选取和合理评分设置的问题,需要较多的人力投入和较强的专家经验,且关键词选取的过程受兴趣实体语义信息变化的影响较大,从而使兴趣实体特征提取的结果不准确,导致提取效果不佳。因此,以上方案都达不到很好的提取效果 ...
【技术保护点】
【技术特征摘要】
1.一种用户兴趣实体特征提取方法,其特征在于,所述用户兴趣实体特征提取方法包括:获取目标兴趣实体;获取所述目标兴趣实体对应的已训练的兴趣实体,所述已训练的兴趣实体从预设用户样本兴趣序列中筛选,所述预设用户样本兴趣序列对应的用户包括与所述目标兴趣实体有交互的用户;根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量。2.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述获取所述目标兴趣实体对应的已训练的兴趣实体的步骤包括:从预先收集的用户样本集中抽样若干个与所述目标兴趣实体有交互的第一类用户,以及若干个与所述目标兴趣实体没有交互的第二类用户;获取所述第一类用户对应的第一类用户样本兴趣序列,以及所述第二类用户对应的第二类用户样本兴趣序列;基于所述第一类用户样本兴趣序列和第二类用户样本兴趣序列,筛选出在所述第一类用户样本兴趣序列出现且不在所述第二类用户样本兴趣序列出现的已训练的兴趣实体。3.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤包括:获取各所述已训练的兴趣实体对应的id;统计各所述已训练的兴趣实体在所述第一类用户样本兴趣序列中对应出现的频次,得到各已训练的兴趣实体对应的频次;基于所述id并通过预先训练得到的兴趣实体与对应特征向量的映射关系计算出各所述已训练的兴趣实体对应的特征向量;将所得的各所述已训练的兴趣实体对应的特征向量与频次进行加权计算,得到所述目标兴趣实体的特征向量。4.根据权利要求3所述的用户兴趣实体特征提取方法,其特征在于,所述统计各所述已训练的兴趣实体在所述第一类用户样本兴趣序列中对应出现的频次,得到各已训练的兴趣实体对应的频次的步骤之后还包括:剔除出现频次小于预设值的所述已训练的兴趣实体。5.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤包括:获取各所述已训练的兴趣实体对应的id;基于所述id并通过预先训练得到的兴趣实体与对应特征向量的映射关系计算出各所述已训练的兴趣实体对应的特征向量;将所得的各所述已训练的兴趣实体的特征向量进行平均值计算,得到所述目标兴趣实体的特征向量。6.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述根据所述已训
练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤之前还包括:从预先收集的用户样本集中抽...
【专利技术属性】
技术研发人员:王永兴,陈婷,吴三平,庄伟亮,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。