用户兴趣实体特征提取方法、装置、终端设备及存储介质制造方法及图纸

技术编号:31834927 阅读:14 留言:0更新日期:2022-01-12 13:12
本发明专利技术公开了一种用户兴趣实体特征提取方法、装置、终端设备及存储介质,其用户兴趣实体特征提取方法包括:获取目标兴趣实体;获取所述目标兴趣实体对应的已训练的兴趣实体;根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量。本发明专利技术解决了用户兴趣实体特征自动化提取的问题,提升用户兴趣实体特征提取的效果。特征提取的效果。特征提取的效果。

【技术实现步骤摘要】
用户兴趣实体特征提取方法、装置、终端设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种用户兴趣实体特征提取方法、装置、终端设备及存储介质。

技术介绍

[0002]企业对用户提供的各种内容服务和商品都可以抽象成兴趣实体,而一段时间内用户产生的各种交互行为对应的兴趣实体构成了用户兴趣序列,这个序列从侧面反映了用户的特征。从用户兴趣序列中进行画像分析有助于企业更好地提高服务水平,蕴含着巨大的商业价值,其中最关键的步骤就是如何从兴趣序列中提取各个兴趣实体的特征。
[0003]但是兴趣实体的稀疏性给分析带来了巨大挑战,兴趣实体的整体数量是巨大的,但单个用户交互的兴趣实体却只是极少部分。目前的一些方案是先将兴趣实体预先分类,然后根据分类衍生统计特征,再基于统计特征做分析,还有一些方案是预设好关键词和对应评分,然后根据关键词和评分结合兴趣实体的相关语义信息进行打分,转化为数值特征。
[0004]以上提到的方案都存在一些不足,将兴趣实体进行预先分类的方案在信息粒度上会有较大损失,会导致兴趣实体特征提取的准确性不高,且同一个类别下兴趣实体反映用户特征的方向也可能有很大区别,从而导致特征提取结果存在偏差,另外如何设计兴趣实体的类别也需要大量的专家经验和人工参与。另一种预设关键词的方法也同样面临关键词选取和合理评分设置的问题,需要较多的人力投入和较强的专家经验,且关键词选取的过程受兴趣实体语义信息变化的影响较大,从而使兴趣实体特征提取的结果不准确,导致提取效果不佳。因此,以上方案都达不到很好的提取效果,同时难以实现提取过程的自动化。
[0005]因此,有必要提出一种解决方案,解决用户兴趣实体特征自动化提取的问题,提升用户兴趣实体特征提取的效果。

技术实现思路

[0006]本专利技术的主要目的在于提供一种用户兴趣实体特征提取方法、装置、终端设备及存储介质,旨在解决用户兴趣实体特征自动化提取的问题,提升用户兴趣实体特征提取的效果。
[0007]为实现上述目的,本专利技术提供一种用户兴趣实体特征提取方法,所述用户兴趣序列的特征提取方法包括:
[0008]获取目标兴趣实体;
[0009]获取所述目标兴趣实体对应的已训练的兴趣实体,所述已训练的兴趣实体从预设用户样本兴趣序列中筛选,所述预设用户样本兴趣序列对应的用户包括与所述目标兴趣实体有交互的用户;
[0010]根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量。
[0011]可选地,所述获取所述目标兴趣实体对应的已训练的兴趣实体的步骤包括:
[0012]从预先收集的用户样本集中抽样若干个与所述目标兴趣实体有交互的第一类用户,以及若干个与所述目标兴趣实体没有交互的第二类用户;
[0013]获取所述第一类用户对应的第一类用户样本兴趣序列,以及所述第二类用户对应的第二类用户样本兴趣序列;
[0014]基于所述第一类用户样本兴趣序列和第二类用户样本兴趣序列,筛选出在所述第一类用户样本兴趣序列出现且不在所述第二类用户样本兴趣序列出现的已训练的兴趣实体。
[0015]可选地,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤包括:
[0016]获取各所述已训练的兴趣实体对应的id;
[0017]统计各所述已训练的兴趣实体在所述第一类用户样本兴趣序列中对应出现的频次,得到各已训练的兴趣实体对应的频次;
[0018]基于所述id并通过预先训练得到的兴趣实体与对应特征向量的映射关系计算出各所述已训练的兴趣实体对应的特征向量;
[0019]将所得的各所述已训练的兴趣实体对应的特征向量与频次进行加权计算,得到所述目标兴趣实体的特征向量。
[0020]可选地,所述统计各所述已训练的兴趣实体在所述第一类用户样本兴趣序列中对应出现的频次,得到各已训练的兴趣实体对应的频次之后的步骤还包括:
[0021]剔除出现频次小于预设值的所述已训练的兴趣实体。
[0022]可选地,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤包括:
[0023]获取各所述已训练的兴趣实体对应的id;
[0024]基于所述id并通过预先训练得到的兴趣实体与对应特征向量的映射关系计算出各所述已训练的兴趣实体对应的特征向量;
[0025]将所得的各所述已训练的兴趣实体的特征向量进行平均值计算,得到所述目标兴趣实体的特征向量。
[0026]可选地,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤之前还包括:
[0027]从预先收集的用户样本集中抽样选取正负标签用户,从所述正负标签用户对应的兴趣序列中随机采样得到正负样本;
[0028]将所述正负样本进行嵌入向量化训练,得到已训练的兴趣实体与对应特征向量的映射关系。
[0029]可选地,所述从预先收集的用户样本集中抽样选取正负标签用户,从所述正负标签用户对应的兴趣序列中随机采样得到正负样本的步骤包括:
[0030]A、从所述预先收集的用户样本集中抽样若干个正标签用户样本,获取所述正标签用户样本对应的所有正标签用户兴趣序列;
[0031]B、从所述预先收集的用户样本集中抽样若干个负标签用户样本,获取所述负标签用户样本对应的所有负标签用户兴趣序列;
[0032]C、从所述负标签用户兴趣序列中随机采样n次,每次采样长度为m的用户兴趣序列
作为负样本,其中n和m均为大于或等于1的正整数;
[0033]D、从与所述正标签用户交互且与所述负标签用户不交互的所述正标签用户兴趣序列中随机采样n次,每次采样长度为m的用户兴趣序列作为正样本,其中n和m均为大于或等于1的正整数;
[0034]重复所述步骤A

D,直到抽样的正负样本的总数量满足预设训练要求。
[0035]可选地,所述将所得所述正负样本进行嵌入向量化训练,得到已训练的兴趣实体与对应特征向量的映射关系的步骤包括:
[0036]将采样得到的所述正负样本的用户兴趣序列所对应的id及正负标签输入到支持嵌入向量化训练的深度学习库中;
[0037]通过所述深度学习库对所述正负样本进行嵌入向量化训练,得到所述已训练的兴趣实体与对应特征向量的映射关系。
[0038]可选地,所述支持嵌入向量化训练的深度学习库包括keras。
[0039]此外,本专利技术实施例还提出一种用户兴趣实体特征提取装置,所述用户兴趣实体特征提取装置包括:
[0040]目标兴趣实体获取模块,用于获取目标兴趣实体;
[0041]已训练的兴趣实体获取模块,用于获取所述目标兴趣实体对应的已训练的兴趣实体;
[0042]特征向量计算模块,用于根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户兴趣实体特征提取方法,其特征在于,所述用户兴趣实体特征提取方法包括:获取目标兴趣实体;获取所述目标兴趣实体对应的已训练的兴趣实体,所述已训练的兴趣实体从预设用户样本兴趣序列中筛选,所述预设用户样本兴趣序列对应的用户包括与所述目标兴趣实体有交互的用户;根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量。2.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述获取所述目标兴趣实体对应的已训练的兴趣实体的步骤包括:从预先收集的用户样本集中抽样若干个与所述目标兴趣实体有交互的第一类用户,以及若干个与所述目标兴趣实体没有交互的第二类用户;获取所述第一类用户对应的第一类用户样本兴趣序列,以及所述第二类用户对应的第二类用户样本兴趣序列;基于所述第一类用户样本兴趣序列和第二类用户样本兴趣序列,筛选出在所述第一类用户样本兴趣序列出现且不在所述第二类用户样本兴趣序列出现的已训练的兴趣实体。3.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤包括:获取各所述已训练的兴趣实体对应的id;统计各所述已训练的兴趣实体在所述第一类用户样本兴趣序列中对应出现的频次,得到各已训练的兴趣实体对应的频次;基于所述id并通过预先训练得到的兴趣实体与对应特征向量的映射关系计算出各所述已训练的兴趣实体对应的特征向量;将所得的各所述已训练的兴趣实体对应的特征向量与频次进行加权计算,得到所述目标兴趣实体的特征向量。4.根据权利要求3所述的用户兴趣实体特征提取方法,其特征在于,所述统计各所述已训练的兴趣实体在所述第一类用户样本兴趣序列中对应出现的频次,得到各已训练的兴趣实体对应的频次的步骤之后还包括:剔除出现频次小于预设值的所述已训练的兴趣实体。5.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述根据所述已训练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤包括:获取各所述已训练的兴趣实体对应的id;基于所述id并通过预先训练得到的兴趣实体与对应特征向量的映射关系计算出各所述已训练的兴趣实体对应的特征向量;将所得的各所述已训练的兴趣实体的特征向量进行平均值计算,得到所述目标兴趣实体的特征向量。6.根据权利要求1所述的用户兴趣实体特征提取方法,其特征在于,所述根据所述已训
练的兴趣实体,及预先训练得到的兴趣实体与对应特征向量的映射关系,得到所述目标兴趣实体的特征向量的步骤之前还包括:从预先收集的用户样本集中抽...

【专利技术属性】
技术研发人员:王永兴陈婷吴三平庄伟亮
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1