【技术实现步骤摘要】
社交媒体网络用语的语义变化自动检测与解释方法及系统
[0001]本专利技术涉及社交媒体分析领域,尤其涉及一种社交媒体网络用语的语义变化自动检测与解释方法及系统。
技术介绍
[0002]随着Tiktok、Bilibili等在线社交媒体平台的兴起,用户在浏览视频的同时分享个人的观点和感受变得十分方便。在大量的视频评论中可以观察到一个很有趣的现象,即许多用户创造了诸多语义改变的网络用语用于表达他们独特的想法或者感情。显然,对于不理解这些亚文化的新用户而言,理解这些网络用语所表达的含义是非常困难的,从而带来糟糕的用户体验。因此,对于平台管理人员来说,提供一个自动检测这些语义变化的网络用语,并提供规范化语义解释的工具,具有十分重要的应用价值。
[0003]然而,对于智能系统而言,充分理解这些亚文化所传达的信息仍旧是十分有挑战性的任务。近年来,随着自然语言处理技术的迅速发展,已有部分技术初步实现了历史记录中词语语义变化的检测。然而,这些方法缺乏有效融合多模态信息的能力,因此无法捕获视频中的网络用语的相关信息,更没有考虑对于检测出的语义变化词语进行规范化语言解释的后续任务,这严重限制了这些技术的应用范围。更糟糕的是,这些网络用语在语义上可能因不同的视觉语境而产生微妙变化。因此,如果不能充分理解网络用语使用场景的视觉语境,而是仅仅通过构建通用词典,可能无法准确翻译网络用语的真实含义,甚至会导致用户对于含意微妙变化的误解。显然,需要一种更为有效且精准的、结合多模态语义信息的检测和解释方法。
技术实现思路
[00 ...
【技术保护点】
【技术特征摘要】
1.一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,包括:网络用语检测阶段:对于社交媒体评论语料库C
u
中的社交媒体评论文本,通过给定的通用语料库C
g
对应的单词向量表示集合获得社交媒体评论文本中所有单词的向量表示,构成第一文本向量序列,以及通过社交媒体评论语料库C
u
对应的单词向量表示集合,获得社交媒体评论文本中所有单词的向量表示,构成第二文本向量序列;对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量,从社交媒体评论文本中选出距离最大的K个单词作为网络用语;网络用语解释阶段:通过基于Transformer模型的编码器分别对社交媒体评论文本对应的视频帧图像的视觉表征、网络用语与社交媒体评论文本的文本表征、以及网络用语与社交媒体评论文本的语音表征进行编码,将编码获得的视频帧图像的图像特征、网络用语与社交媒体评论文本的文本表征,以及网络用语与社交媒体评论文本的语音特征,输入至基于Transformer模型的解码器,生成自然语言解释文本。2.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,所述单词向量表示集合包含多个单词的向量表示,每一单词的向量表示均通过针对文本的预训练模型提取,对于单词w
′
,其向量表示为v,提取方式表示为:v=W
g
w其中,W
g
表示针对文本的预训练模型的参数,w表示单词w
′
的独热向量;将通用语料库C
g
对应的单词向量表示集合记为其中,表示通用语料库C
g
中第l个单词的表示向量,l=1,2,
…
;将社交媒体评论语料库C
u
对应的单词向量表示集合记为其中,表示社交媒体评论语料库C
u
中第t个单词的表示向量,t=1,2,
…
。3.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,所述对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量包括:将第一文本向量序列记为将第二本文向量序列记为其中,n为社交媒体评论文本中单词的数目,i为社交媒体评论文本中单词的序号,表示通过给定的通用语料库C
g
对应的单词向量表示集合获得的第i个单词的向量表示,表示通过社交媒体评论语料库C
u
对应的单词向量表示集合获得的第i个单词的向量表示;如果第i个单词未出现在给定的通用语料库C
g
中,则对应的向量表示为组成第i个单词的所有字符的表征向量的平均值;通过距离函数对第一文本向量序列与第二文本向量序列中相同序号i的向量表示与之间的距离进行度量。4.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,所述网络用语检测阶段通过图像增强的网络用语检测模块实现,所述图像增强的网络用语检测模块包括:针对文本的预训练模型、针对图像的预训练模型、编码器、解码器以及提取器;其中:
所述针对文本的预训练模型,用于提取给定的通用语料库C
g
、以及社交媒体评论语料库C
u
对应的单词向量表示集合;所述提取器,用于结合社交媒体评论文本获得第一文本向量序列与第二文本向量序列,对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量,从社交媒体评论文本中选出距离最大的K个单词作为网络用语;针对图像的预训练模型、编码器与解码器仅应用于训练阶段,训练阶段,编码器的输入为第二文本向量序列,输出为句子层面的向量表示,解码器基于句子层面的向量表示生成重构文本,利用重构文本与社交媒体评论文本的差异计算重构损失针对图像的预训练模型的输入为社交媒体评论文本对应的视频帧图像,输出为整体的视觉表征;通过正交矩阵G将句子层面的向量表示从句子语义空间转换至视觉空间后通过距离函数计算与整体的视觉表征的距离损失结合重构损失距离损失以及正交矩阵G的约束项构建第一...
【专利技术属性】
技术研发人员:徐童,陈恩红,谢哲勇,何伟栋,吴世伟,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。