System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用户潜在偏好挖掘方法及装置制造方法及图纸_技高网

用户潜在偏好挖掘方法及装置制造方法及图纸

技术编号:43583928 阅读:4 留言:0更新日期:2024-12-06 17:47
本发明专利技术提供一种用户潜在偏好挖掘方法及装置,所述方法包括:对获取到的用户文本数据进行预处理,得到句子集合S和词语集合W;基于所述词语集合W中的高频词,生成多个词语关联图;基于所述多个词语关联图以及所述句子集合S,确定低频候选词;将所述低频候选词添加到所述多个词语关联图;基于所述低频候选词与每一高频词之间的共现率,确定潜在偏好事件。本发明专利技术提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。

【技术实现步骤摘要】

本专利技术涉及人工智能 ,尤其涉及一种用户潜在偏好挖掘方法及装置


技术介绍

1、用户潜在偏好是指用户在考量商品和服务时所表现出的理性的、具有倾向性的选择,这是用户认知、心理感受及理性的经济学权衡的综合结果。在日常生活中,人们往往借助自己的偏好来辅助日常的相关决策,或者仅仅使用偏好表达喜好和倾向性意见方面的意向,而并不涉及到实际的选择。然而,在商业环境中,挖掘用户的潜在偏好对于企业来说至关重要。

2、挖掘用户潜在偏好的方法多样,包括传统的地毯式搜索法和广告搜索法,以及更侧重于数据分析和技术应用的关键线索挖掘法和解耦表征学习。

3、但是,现有的挖掘用户潜在偏好的方法,存在大数据资源中的长尾问题,大数据资源中的长尾问题主要涉及到数据分布的不均衡,即少数类样本拥有大量的样本(头类),而其他类仅有少量样本(尾类),这导致在深度学习训练过程中,模型更偏向于头部数据,对尾部数据表现不佳,从而对学习过程造成困扰。


技术实现思路

1、本专利技术提供一种用户潜在偏好挖掘方法及装置,用以解决现有技术中挖掘用户潜在偏好的方法存在大数据资源中的长尾问题。

2、本专利技术提供一种用户潜在偏好挖掘方法,包括:

3、对获取到的用户文本数据进行预处理,得到句子集合s和词语集合w;

4、基于所述词语集合w中的高频词,生成多个词语关联图;

5、基于所述多个词语关联图以及所述句子集合s,确定低频候选词;

6、将所述低频候选词添加到所述多个词语关联图;

7、基于所述低频候选词与每一高频词之间的共现率,确定用户的潜在偏好事件。

8、在一些实施例中,所述对获取到的用户文本数据进行预处理,包括:

9、对获取到的用户文本数据进行切词和分词处理,得到多个词语和多个短语句;

10、使用停用词词典对所述多个词语和多个短语句进行停词处理,剔除没有意义的词;

11、使用同义词词典对停词处理后的多个词语和多个短语句进行合并。

12、在一些实施例中,所述基于所述词语集合w中的高频词,生成多个词语关联图,包括:

13、将所述词语集合w中频度大于预设的阈值θ的词语作为高频词,并由所述高频词生成高频词集合n;

14、计算所述高频词集合n中的每两个高频词在同一个句子中的共现率;

15、以共现率大于预设的阈值µ的词语对为节点,以所述词语对之间的实线为边,生成多个词语关联图。

16、在一些实施例中,所述基于所述多个词语关联图以及所述句子集合s,确定低频候选词,包括:

17、基于所述多个词语关联图以及所述句子集合s,确定所述词语集合w中每个词w的关联偏好值key(w),所述关联偏好值key(w)表示在用户基于所有意图群组集的情况下使用词w的条件概率;其中,每一个词语关联图对应一个意图群组;

18、将所述关联偏好值key(w)大于预设的阈值δ的词确定为低频候选词。

19、在一些实施例中,所述基于所述低频候选词与每一高频词之间的共现率,确定用户的潜在偏好事件,包括:

20、计算每一低频候选词与每一高频词之间的共现率;

21、将共现率大于预设的阈值ε的低频候选词作为低频词,并与对应的高频词构成高低频词对;

22、基于所述高低频词对,确定用户的潜在偏好事件。

23、在一些实施例中,所述基于所述高低频词对,确定用户的潜在偏好事件,包括:

24、以所述高低频词对为节点,以所述高低频词对之间的虚线为边,更新词语关联图;

25、针对更新后的词语关联图中的每一高频词,统计与所述每一高频词连接的虚线的个数;

26、将与所述每一高频词连接的虚线的个数大于预设的阈值σ的高频词确定为用户主旨的关键词;

27、将所述关键词一端的高频词确定为用户的主旨意图事件,将所述关键词另一端的低频词确定为用户的潜在偏好事件。

28、本专利技术还提供一种用户潜在偏好挖掘装置,包括:

29、预处理模块,用于对获取到的用户文本数据进行预处理,得到句子集合s和词语集合w;

30、词语关联图构建模块,用于基于所述词语集合w中的高频词,生成多个词语关联图;

31、低频候选词确定模块,用于基于所述多个词语关联图以及所述句子集合s,确定低频候选词;

32、偏好关联确定模块,用于将所述低频候选词添加到所述多个词语关联图;

33、潜在偏好挖掘模块,用于基于所述低频候选词与每一高频词之间的共现率,确定用户的潜在偏好事件。

34、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述用户潜在偏好挖掘方法。

35、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用户潜在偏好挖掘方法。

36、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述用户潜在偏好挖掘方法。

37、本专利技术提供的用户潜在偏好挖掘方法及装置,在用户意图中挖掘用户的潜在兴趣,寻找出与用户意图有所关联但距离较远的优秀资源,挖掘与用户兴趣关联较差、距离较远的经典精华资源,满足用户的潜在兴趣,并分析隐性关联,从而为用户制造多样性和新颖性,更进一步解决大数据资源中的长尾问题。

本文档来自技高网...

【技术保护点】

1.一种用户潜在偏好挖掘方法,其特征在于,包括:

2.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述对获取到的用户文本数据进行预处理,包括:

3.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述词语集合W中的高频词,生成多个词语关联图,包括:

4.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述多个词语关联图以及所述句子集合S,确定低频候选词,包括:

5.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述低频候选词与每一高频词之间的共现率,确定用户的潜在偏好事件,包括:

6.根据权利要求5所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述高低频词对,确定用户的潜在偏好事件,包括:

7.一种用户潜在偏好挖掘装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述用户潜在偏好挖掘方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用户潜在偏好挖掘方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用户潜在偏好挖掘方法。

...

【技术特征摘要】

1.一种用户潜在偏好挖掘方法,其特征在于,包括:

2.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述对获取到的用户文本数据进行预处理,包括:

3.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述词语集合w中的高频词,生成多个词语关联图,包括:

4.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述多个词语关联图以及所述句子集合s,确定低频候选词,包括:

5.根据权利要求1所述的用户潜在偏好挖掘方法,其特征在于,所述基于所述低频候选词与每一高频词之间的共现率,确定用户的潜在偏好事件,包括:

6.根据权利要求5所述的用户潜在偏好挖掘方...

【专利技术属性】
技术研发人员:孔德智孙丽娟颜博曹扬胡静吕征南
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1