社交媒体网络用语的语义变化自动检测与解释方法及系统技术方案

技术编号:35578063 阅读:23 留言:0更新日期:2022-11-12 16:03
本发明专利技术公开了一种社交媒体网络用语的语义变化自动检测与解释方法及系统,整个方案两个阶段,通过两个阶段自动检测和理解社交媒体评论中的网络用语语义变化现象,第一个阶段中,通过单词在不同语料库中对应的向量表示的距离,可以以找到语义上发生变化的词语(即网络用语);第二个阶段,利用多模态信息可以生成网络用语的解释文本,从而准确翻译网络用语的真实含义。真实含义。真实含义。

【技术实现步骤摘要】
社交媒体网络用语的语义变化自动检测与解释方法及系统


[0001]本专利技术涉及社交媒体分析领域,尤其涉及一种社交媒体网络用语的语义变化自动检测与解释方法及系统。

技术介绍

[0002]随着Tiktok、Bilibili等在线社交媒体平台的兴起,用户在浏览视频的同时分享个人的观点和感受变得十分方便。在大量的视频评论中可以观察到一个很有趣的现象,即许多用户创造了诸多语义改变的网络用语用于表达他们独特的想法或者感情。显然,对于不理解这些亚文化的新用户而言,理解这些网络用语所表达的含义是非常困难的,从而带来糟糕的用户体验。因此,对于平台管理人员来说,提供一个自动检测这些语义变化的网络用语,并提供规范化语义解释的工具,具有十分重要的应用价值。
[0003]然而,对于智能系统而言,充分理解这些亚文化所传达的信息仍旧是十分有挑战性的任务。近年来,随着自然语言处理技术的迅速发展,已有部分技术初步实现了历史记录中词语语义变化的检测。然而,这些方法缺乏有效融合多模态信息的能力,因此无法捕获视频中的网络用语的相关信息,更没有考虑对于检测出的语义变化词语进行规范化语言解释的后续任务,这严重限制了这些技术的应用范围。更糟糕的是,这些网络用语在语义上可能因不同的视觉语境而产生微妙变化。因此,如果不能充分理解网络用语使用场景的视觉语境,而是仅仅通过构建通用词典,可能无法准确翻译网络用语的真实含义,甚至会导致用户对于含意微妙变化的误解。显然,需要一种更为有效且精准的、结合多模态语义信息的检测和解释方法。

技术实现思路

[0004]本专利技术的目的是提供一种社交媒体网络用语的语义变化自动检测与解释方法及系统,可以准确检测网络用语并结合多模态信息生成相应的解释文本。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种社交媒体网络用语的语义变化自动检测与解释方法,包括:
[0007]网络用语检测阶段:对于社交媒体评论语料库C
u
中的社交媒体评论文本,通过给定的通用语料库C
g
对应的单词向量表示集合获得社交媒体评论文本中所有单词的向量表示,构成第一文本向量序列,以及通过社交媒体评论语料库C
u
对应的单词向量表示集合,获得社交媒体评论文本中所有单词的向量表示,构成第二文本向量序列;对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量,从社交媒体评论文本中选出距离最大的K个单词作为网络用语;
[0008]网络用语解释阶段:通过基于Transformer模型的编码器分别对社交媒体评论文本对应的视频帧图像的视觉表征、网络用语与社交媒体评论文本的文本表征、以及网络用语与社交媒体评论文本的语音表征进行编码,将编码获得的视频帧图像的图像特征、网络用语与社交媒体评论文本的文本表征,以及网络用语与社交媒体评论文本的语音特征,输
入至基于Transformer模型的解码器,生成自然语言解释文本。
[0009]一种社交媒体网络用语的语义变化自动检测与解释系统,包括:
[0010]图像增强的网络用语检测模块,应用于网络用语检测阶段,所述网络用语检测阶段包括:对于社交媒体评论语料库C
u
中的社交媒体评论文本,通过给定的通用语料库C
g
对应的单词向量表示集合获得社交媒体评论文本中所有单词的向量表示,构成第一文本向量序列,以及通过社交媒体评论语料库C
u
对应的单词向量表示集合,获得社交媒体评论文本中所有单词的向量表示,构成第二文本向量序列;对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量,从社交媒体评论文本中选出距离最大的K个单词作为网络用语;
[0011]网络用语解释任务模块,应用于网络用语解释阶段,所述网络用语解释阶段包括:通过基于Transformer模型的编码器分别对社交媒体评论文本对应的视频帧图像的视觉表征、网络用语与社交媒体评论文本的文本表征、以及网络用语与社交媒体评论文本的语音表征进行编码,将编码获得的视频帧图像的图像特征、网络用语与社交媒体评论文本的文本表征,以及网络用语与社交媒体评论文本的语音特征,输入至基于Transformer模型的解码器,生成自然语言解释文本。
[0012]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0013]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0014]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0015]由上述本专利技术提供的技术方案可以看出,通过两阶段的方案自动检测和理解社交媒体评论中的网络用语语义变化现象,第一个阶段中,通过单词在不同语料库中对应的向量表示的距离,可以以找到语义上发生变化的词语(即网络用语);第二个阶段,利用多模态信息可以生成网络用语的解释文本,从而准确翻译网络用语的真实含义。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0017]图1为本专利技术实施例提供的一种社交媒体网络用语的语义变化自动检测与解释方法的流程图;
[0018]图2为本专利技术实施例提供的一种社交媒体网络用语的语义变化自动检测与解释方法的整体框架图;
[0019]图3为本专利技术实施例提供的一种社交媒体网络用语的语义变化自动检测与解释系统的示意图;
[0020]图4为本专利技术实施例提供的处理设备的示意图。
具体实施方式
[0021]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0022]首先对本文中可能使用的术语进行如下说明:
[0023]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0024]下面对本专利技术所提供的一种社交媒体网络用语的语义变化自动检测与解释方法及系统进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0025]实施例一
[0026]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,包括:网络用语检测阶段:对于社交媒体评论语料库C
u
中的社交媒体评论文本,通过给定的通用语料库C
g
对应的单词向量表示集合获得社交媒体评论文本中所有单词的向量表示,构成第一文本向量序列,以及通过社交媒体评论语料库C
u
对应的单词向量表示集合,获得社交媒体评论文本中所有单词的向量表示,构成第二文本向量序列;对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量,从社交媒体评论文本中选出距离最大的K个单词作为网络用语;网络用语解释阶段:通过基于Transformer模型的编码器分别对社交媒体评论文本对应的视频帧图像的视觉表征、网络用语与社交媒体评论文本的文本表征、以及网络用语与社交媒体评论文本的语音表征进行编码,将编码获得的视频帧图像的图像特征、网络用语与社交媒体评论文本的文本表征,以及网络用语与社交媒体评论文本的语音特征,输入至基于Transformer模型的解码器,生成自然语言解释文本。2.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,所述单词向量表示集合包含多个单词的向量表示,每一单词的向量表示均通过针对文本的预训练模型提取,对于单词w

,其向量表示为v,提取方式表示为:v=W
g
w其中,W
g
表示针对文本的预训练模型的参数,w表示单词w

的独热向量;将通用语料库C
g
对应的单词向量表示集合记为其中,表示通用语料库C
g
中第l个单词的表示向量,l=1,2,

;将社交媒体评论语料库C
u
对应的单词向量表示集合记为其中,表示社交媒体评论语料库C
u
中第t个单词的表示向量,t=1,2,

。3.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,所述对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量包括:将第一文本向量序列记为将第二本文向量序列记为其中,n为社交媒体评论文本中单词的数目,i为社交媒体评论文本中单词的序号,表示通过给定的通用语料库C
g
对应的单词向量表示集合获得的第i个单词的向量表示,表示通过社交媒体评论语料库C
u
对应的单词向量表示集合获得的第i个单词的向量表示;如果第i个单词未出现在给定的通用语料库C
g
中,则对应的向量表示为组成第i个单词的所有字符的表征向量的平均值;通过距离函数对第一文本向量序列与第二文本向量序列中相同序号i的向量表示与之间的距离进行度量。4.根据权利要求1所述的一种社交媒体网络用语的语义变化自动检测与解释方法,其特征在于,所述网络用语检测阶段通过图像增强的网络用语检测模块实现,所述图像增强的网络用语检测模块包括:针对文本的预训练模型、针对图像的预训练模型、编码器、解码器以及提取器;其中:
所述针对文本的预训练模型,用于提取给定的通用语料库C
g
、以及社交媒体评论语料库C
u
对应的单词向量表示集合;所述提取器,用于结合社交媒体评论文本获得第一文本向量序列与第二文本向量序列,对第一文本向量序列与第二文本向量序列中相同单词之间的向量表示的距离进行度量,从社交媒体评论文本中选出距离最大的K个单词作为网络用语;针对图像的预训练模型、编码器与解码器仅应用于训练阶段,训练阶段,编码器的输入为第二文本向量序列,输出为句子层面的向量表示,解码器基于句子层面的向量表示生成重构文本,利用重构文本与社交媒体评论文本的差异计算重构损失针对图像的预训练模型的输入为社交媒体评论文本对应的视频帧图像,输出为整体的视觉表征;通过正交矩阵G将句子层面的向量表示从句子语义空间转换至视觉空间后通过距离函数计算与整体的视觉表征的距离损失结合重构损失距离损失以及正交矩阵G的约束项构建第一...

【专利技术属性】
技术研发人员:徐童陈恩红谢哲勇何伟栋吴世伟
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1