System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种社交平台账号画像多模态向量化表征方法技术_技高网

一种社交平台账号画像多模态向量化表征方法技术

技术编号:43860645 阅读:4 留言:0更新日期:2024-12-31 18:49
本发明专利技术涉及互联网大数据技术领域,且公开了一种社交平台账号画像多模态向量化表征方法,包括作品内容画像表征、账号资料画像表征和社交关系画像表征。该社交平台账号画像多模态向量化表征方法,将基于用户发表的作品内容、账号资料、账号社交关系等信息对账号画像进行建模,并利用多模态内容将账号特征向量化,尽可能地多维度、全方位的表征账号信息,从而精准构建账号画像,通过特征向量化技术,解决文本标签提取信息损失问题和人工设计文本标签缺陷,同时通过作品内容、账号资料、账号社交关系等多个维度,以及多模态内容识别与分析,解决只基于文本信息表征账号画像不全面的问题。

【技术实现步骤摘要】

本专利技术涉及互联网大数据,具体为一种社交平台账号画像多模态向量化表征方法


技术介绍

1、社交媒体和短视频平台的迅猛发展带来了用户数量和内容产出的爆炸性增长。平台账号在虚拟世界的行为,是现实世界真人的一个映射。这些平台上的个人账号信息和用户发布的内容,不仅反映了用户的价值观、兴趣爱好、行为特征和社交网络,还蕴含着丰富的高价值信息。为了从这些海量数据中挖掘出有价值的信息,有效分析用户账号和作品内容变得至关重要。目前,通过账号画像技术,能够对平台上的账号进行精确建模,这为用户行为分析、个性化推荐、以及安全监控等应用提供了坚实的技术支撑。

2、当前账号画像技术,主要是基于账号相关文本信息抽取,通过给账号打标签的形式,生成账号画像。账号画像的关系分析,也是通过比较标签间的相关度来实现。然而,通过文本打标签形式的账号画像建模技术,存在以下缺陷:

3、1.文本标签提取过程,存在信息量损失问题;

4、2.文本标签依赖人工设计,标签是否全面和准确,直接影响了账号画像的质量;

5、3.多媒体时代,只基于文本信息,无法全面地表征账号画像,未考虑多模态信息。


技术实现思路

1、针对现有技术的不足,本专利技术提供了一种社交平台账号画像多模态向量化表征方法,将基于用户发表的作品内容、账号资料、账号社交关系等信息对账号画像进行建模,并利用多模态内容将账号特征向量化,尽可能地多维度、全方位的表征账号信息,从而精准构建账号画像,且通过特征向量化技术,解决文本标签提取信息损失问题和人工设计文本标签缺陷,同时通过作品内容、账号资料、账号社交关系等多个维度,以及多模态内容识别与分析,解决只基于文本信息表征账号画像不全面的问题。

2、为实现上述的目的,本专利技术提供如下技术方案:1.包括作品内容画像表征、账号资料画像表征、社交关系画像表征以及账号画像表征,其特征在于,具体表征步骤如下:

3、1.1作品内容画像表征:

4、步骤一:作品信息获取;

5、步骤二:数据预处理;

6、视觉文本提取;

7、语音文本提取;

8、视频帧抽取;

9、作品文本集合;

10、作品图像集合;

11、步骤三:多模态特征提取;

12、步骤四:作品内容画像向量化;

13、步骤五:作品内容画像表征;

14、1.2账号资料画像表征:

15、步骤一:账号信息获取;

16、步骤二:作品信息获取;

17、步骤三:数据预处理;

18、视觉文本提取;

19、语音文本提取;

20、视频帧抽取;

21、作品文本集合;

22、作品图像集合;

23、步骤四:历史头像特征提取;

24、步骤五:个人资料特征提取;

25、步骤六:民族特征提取

26、头像语义特征;

27、作品视觉语义特征;

28、作品文本语义特征;

29、步骤七:ip属地变化特征提取;

30、步骤八:账号资料画像表征;

31、1.3社交关系画像表征:

32、步骤一:账号关系获取;

33、步骤二:账号事件获取;

34、步骤三:知识图谱构建;

35、步骤四:社交关系向量提取;

36、步骤五:社交关系画像表征;

37、1.4账号画像表征:

38、由作品内容画像、账号资料画像和社交关系画像共同形成账号画像,实现账号画像的向量化。

39、进一步地,作品内容画像表征的步骤二的数据预处理中采样策略不限于关键帧、固定时间间隔抽帧和通过抽帧算法提取内容代表帧。

40、进一步地,作品内容画像表征的步骤三的多模态特征提取中跨模态视觉语义特征适用类型包括具有跨模态视觉语义特征提取能力的模型。

41、进一步地,作品内容画像表征的步骤四的作品内容画像向量化中聚合方式包括但不限于求平均值、通过深度学习模型融合。

42、进一步地,账号资料画像表征的步骤三的数据预处理中采样策略不限于关键帧、固定时间间隔抽帧和通过抽帧算法提取内容代表帧。

43、进一步地,账号资料画像表征的步骤五的个人资料特征提取中跨模态文本语义特征适用类型包括具有跨模态文本语义特征提取能力的模型。

44、进一步地,账号资料画像表征的步骤六的民族特征提取中跨模态文本语义特征适用类型包括具有跨模态文本语义特征提取能力的模型,且头像语义特征、视觉语义特征和文本语义特征共三条特征作为该账号的民族特征。

45、进一步地,社交关系画像表征的步骤四的社交关系向量提取中图嵌入算法指的是具有图嵌入能力的算法模型,不限于node2vec和deepwalk。

46、与现有技术相比,本专利技术提供了一种社交平台账号画像多模态向量化表征方法,具备以下有益效果:

47、1.该社交平台账号画像多模态向量化表征方法,通过基于特征向量表征账号画像,最大程度的避免了信息损失。

48、2.该社交平台账号画像多模态向量化表征方法,无需人工设计文本标签,使用成本低,适用面广,通用性强。

49、3.该社交平台账号画像多模态向量化表征方法,从不同维度全面表征了账号画像,包括作品内容画像、账号资料画像和社交关系画像,使得账号画像描述更准确,应用效果更好。

本文档来自技高网...

【技术保护点】

1.一种社交平台账号画像多模态向量化表征方法,包括作品内容画像表征、账号资料画像表征、社交关系画像表征以及账号画像表征,其特征在于,具体表征步骤如下:

2.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述作品内容画像表征的步骤二的数据预处理中采样策略不限于关键帧、固定时间间隔抽帧和通过抽帧算法提取内容代表帧。

3.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述作品内容画像表征的步骤三的多模态特征提取中跨模态视觉语义特征适用类型包括具有跨模态视觉语义特征提取能力的模型。

4.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述作品内容画像表征的步骤四的作品内容画像向量化中聚合方式包括但不限于求平均值、通过深度学习模型融合。

5.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述账号资料画像表征的步骤三的数据预处理中采样策略不限于关键帧、固定时间间隔抽帧和通过抽帧算法提取内容代表帧。

6.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述账号资料画像表征的步骤五的个人资料特征提取中跨模态文本语义特征适用类型包括具有跨模态文本语义特征提取能力的模型。

7.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述账号资料画像表征的步骤六的民族特征提取中跨模态文本语义特征适用类型包括具有跨模态文本语义特征提取能力的模型,且头像语义特征、视觉语义特征和文本语义特征共三条特征作为该账号的民族特征。

8.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述社交关系画像表征的步骤四的社交关系向量提取中图嵌入算法指的是具有图嵌入能力的算法模型,不限于Node2Vec和DeepWalk。

...

【技术特征摘要】

1.一种社交平台账号画像多模态向量化表征方法,包括作品内容画像表征、账号资料画像表征、社交关系画像表征以及账号画像表征,其特征在于,具体表征步骤如下:

2.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述作品内容画像表征的步骤二的数据预处理中采样策略不限于关键帧、固定时间间隔抽帧和通过抽帧算法提取内容代表帧。

3.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述作品内容画像表征的步骤三的多模态特征提取中跨模态视觉语义特征适用类型包括具有跨模态视觉语义特征提取能力的模型。

4.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,其特征在于:所述作品内容画像表征的步骤四的作品内容画像向量化中聚合方式包括但不限于求平均值、通过深度学习模型融合。

5.根据权利要求1所述的一种社交平台账号画像多模态向量化表征方法,...

【专利技术属性】
技术研发人员:王坚张朝李兵张丹
申请(专利权)人:人民中科北京智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1