多模态违规内容的智能判断方法、系统、设备及存储介质技术方案

技术编号：38205987 阅读：10 留言：0更新日期：2023-07-21 16:53

本发明专利技术涉及网络通信技术领域，具体涉及多模态违规内容的智能判断方法、系统、设备及存储介质。该方法获取输入数据，输入数据包括语音输入、文本数据和图像输入，并将输入数据转化为第一特征向量、第二特征向量和第三特征向量；将第一特征向量、第二特征向量和第三特征向量合并为第四特征向量；获取位置输入，并利用位置输入对第四特征向量进行位置编码，获得第一序列；将第一序列压缩成指定长度的第一向量，第一向量可以看成是第一序列的语义；基于第一向量生成第二序列和第一类别；将第二序列压缩成指定长度的第三向量；基于第三向量生成第三序列和第二类别；本发明专利技术实现对多模态的信息进行分类。息进行分类。息进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
多模态违规内容的智能判断方法、系统、设备及存储介质

[0001]本专利技术涉及网络通信
，尤其涉及多模态违规内容的智能判断方法、系统、设备及存储介质。

技术介绍

[0002]在觅健群聊中，除了用户的正常聊天以外，还会存在个别用户发布不当言论、辱骂他人，转卖求购药品等违规内容，管理员需要将这些内容撤回，并将用户封禁。
[0003]社区聊天内容属于多模态问题，多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。
[0004]如违规文本“加我微信”，在多模态场景下可以为：
[0005]1.谐音：加我薇心。
[0006]2.图片或者图文结合：加我“微信”，“微信”是图片。
[0007]3.藏头诗、藏尾诗：
[0008]加之迹若浮
[0009]我有二三子
[0010]微论亦高驾
[0011]信哉人中杰；
[0012]4.语音。
[0013]而传统的分类方案只能针对单个信息，难以对多模态的信息进行分类，为了解决该技术问题现提出多模态违规内容的智能判断方法、系统、设备及存储介质。

技术实现思路

[0014]为了解决上述现有技术中存在的技术问题，本专利技术提供了一种多模态违规内容的智能判断方法、系统、设备及存储介质。
[0015]为实现上述目的，本专利技术实施例提供了如下的技术方案：
[0016]第一方面，在本专利技术提供的一个实施例中，提供了多模态违规内容的智能判断方法，该方法包括以下步骤：
>[0017]获取输入数据，所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种，并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量，以获得特征向量组合；
[0018]将所述特征向量组合合并为第四特征向量；
[0019]获取位置输入，并利用所述位置输入对第四特征向量进行位置编码，获得第一序列；
[0020]将第一序列压缩成指定长度的第一向量；
[0021]基于所述第一向量生成第二序列和第一类别；
[0022]将第二序列压缩成指定长度的第三向量；
[0023]基于所述第三向量生成第三序列和第二类别。
[0024]作为本专利技术的进一步方案，所述第一特征向量、第二特征向量和第三特征向量分别属于a维向量空间中的特征向量、b维向量空间中的特征向量和c维向量空间中的特征向量，其中所述a、b和c为正整数。
[0025]作为本专利技术的进一步方案，所述第四特征向量为n维空间中的特征向量，n为正整数。
[0026]第二方面，在本专利技术提供的又一个实施例中，提供了多模态违规内容的智能判断系统，该系统包括：输入模块、特征合并层、位置编码层、第一特征编码层、第一特征解码层、第二特征编码层、残差结构和第二特征解码层；
[0027]所述输入模块，用于获取输入数据，所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种，并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量，以获得特征向量组合；
[0028]所述特征合并层，用于将所述特征向量组合合并为第四特征向量；
[0029]所述位置编码层，用于获取位置输入，并利用所述位置输入对第四特征向量进行位置编码，获得第一序列；
[0030]所述第一特征编码层，用于将第一序列压缩成指定长度的第一向量；
[0031]所述第一特征解码层，用于基于所述第一向量生成第二序列和第一类别；
[0032]所述第二特征编码层，用于将第二序列压缩成指定长度的第三向量；
[0033]所述残差结构，用于将第一向量传递给所述第二特征解码层；
[0034]所述第二特征解码层，用于基于所述第三向量生成第三序列和第二类别。
[0035]作为本专利技术的进一步方案，所述输入模块包括语音编码层、文本编码层和图像编码层；
[0036]所述语音编码层，用于将语音输入转化为第一特征向量；还用于当未包括语音输入时，对第一特征向量进行掩码处理；
[0037]所述文本编码层，用于将文本输入转化为第二特征向量；还用于当未包括文本输入时，对第二特征向量进行掩码处理；
[0038]所述图像编码层，用于将图像输入转化为第三特征向量；还用于当未包括图像输入时，对第三特征向量进行掩码处理。
[0039]作为本专利技术的进一步方案，所述语音编码层、所述文本编码层、所述图像编码层、所述第一特征解码层和第二特征编码层均包括卷积、反卷积、空洞卷积、池化、注意力机制和归一。
[0040]作为本专利技术的进一步方案，所述语音编码层、所述文本编码层、所述图像编码层、所述第一特征编码层、第一特征解码层、第二特征编码层和第二特征解码层均属于encoder
‑
decoder神经网络结构。
[0041]作为本专利技术的进一步方案，该系统训练数据包括标签序列P和标签类别为Q，该系统的损失函数分别为序列损失Loss_o和类别损失Loss_l；
[0042]该系统的总损失函数通过如下公式进行计算：
[0043][0044]其中，Loss表示为总损失函数，N表示中间监督的数量，O_i表示第i个中间监督层的序列输出，L_i表示第i个中间监督层的类别输出，i为正整数；i大于等于，当等于时，即无中间监督层，只存在顶层的输出，当i等于时，有一个中间监督层，以此类推。
[0045]第三方面，在本专利技术提供的又一个实施例中，提供了一种设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器加载并执行所述计算机程序时实现多模态违规内容的智能判断方法的步骤。
[0046]第四方面，在本专利技术提供的再一个实施例中，提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器加载并执行时实现所述多模态违规内容的智能判断方法的步骤。
[0047]本专利技术提供的技术方案，具有如下有益效果：
[0048]本专利技术提供的多模态违规内容的智能判断方法、系统、设备及存储介质，本专利技术获取输入数据，所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种，并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量，以获得特征向量组合；将所述特征向量组合合并为第四特征向量；获取位置输入，并利用所述位置输入对第四特征向量进行位置编码，获得第一序列；将第一序列压缩成指定长度的第一向量，所述第一向量可以看成是所述第一序列的语义；基于所述第一向量生成第二序列和第一类别；将第二序列压缩成指定长度的第三向量；基于所述第三向量和第一向量之和，生成第三序列和第二类别；本专利技术实现对多模态的信息进行分类。
[0049]本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本专利技术。
附图说明
[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态违规内容的智能判断方法，其特征在于，该方法包括：获取输入数据，所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种，并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量，以获得特征向量组合；将所述特征向量组合合并为第四特征向量；获取位置输入，并利用所述位置输入对第四特征向量进行位置编码，获得第一序列；将第一序列压缩成指定长度的第一向量；基于所述第一向量生成第二序列和第一类别；将第二序列压缩成指定长度的第三向量；基于所述第三向量生成第三序列和第二类别。2.如权利要求1所述的多模态违规内容的智能判断方法，其特征在于，所述第一特征向量、第二特征向量和第三特征向量分别属于a维向量空间中的特征向量、b维向量空间中的特征向量和c维向量空间中的特征向量，其中所述a、b和c为正整数。3.如权利要求1所述的多模态违规内容的智能判断方法，其特征在于，所述第四特征向量为n维空间中的特征向量，n为正整数。4.一种多模态违规内容的智能判断系统，其特征在于，该系统包括：输入模块、特征合并层、位置编码层、第一特征编码层、第一特征解码层、第二特征编码层、残差结构和第二特征解码层；所述输入模块，用于获取输入数据，所述输入数据至少包括语音输入、文本数据和图像输入三者中的任一种，并将所述输入数据中的语音输入、文本数据和图像输入分别转化为第一特征向量、第二特征向量和第三特征向量，以获得特征向量组合；所述特征合并层，用于将所述特征向量组合合并为第四特征向量；所述位置编码层，用于获取位置输入，并利用所述位置输入对第四特征向量进行位置编码，获得第一序列；所述第一特征编码层，用于将第一序列压缩成指定长度的第一向量；所述第一特征解码层，用于基于所述第一向量生成第二序列和第一类别；所述第二特征编码层，用于将第二序列压缩成指定长度的第三向量；所述残差结构，用于将第一向量传递给所述第二特征解码层；所述第二特征解码层，用于基于所述第三向量生成第三序列和第二类别。5.如权利要...

【专利技术属性】
技术研发人员：刘文桂，徐骏捷，沈在鑫，
申请(专利权)人：厦门鹅卵石网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人