一种信息表征模型构建方法、信息表征方法技术

技术编号:33460719 阅读:17 留言:0更新日期:2022-05-19 00:41
本申请公开了一种信息表征模型构建方法、信息表征方法,其包括:首先,利用大量样本多模态信息、并以这些样本多模态信息的话题提取内容作为监督信号,构建信息表征模型,以使构建好的信息表征模型针对多模态信息具有较好的信息表征性能;然后,在获取到待处理多模态信息之后,利用构建好的信息表征模型,确定该待处理多模态信息的信息表征向量,以使该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息所携带的多模态融合信息,从而使得该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息的整体内容,如此能够提高信息表征效果(尤其是,针对多模态信息的信息表征效果)。针对多模态信息的信息表征效果)。针对多模态信息的信息表征效果)。

【技术实现步骤摘要】
一种信息表征模型构建方法、信息表征方法


[0001]本申请涉及数据处理
,尤其涉及一种信息表征模型构建方法、信息表征方法。

技术介绍

[0002]信息表征是指针对某信息数据(例如,图文、视频、音频等)进行内容编码表示,得到该信息数据的编码表征向量,以便后续能够利用该编码表征向量进行下游分析处理(例如,内容识别、内容分析、内容理解等)。
[0003]另外,信息表征在内容标签、内容审核、内容推荐、内容搜索等众多应用领域都起到基础性的作用。
[0004]然而,因信息表征技术存在缺陷,导致信息表征效果比较差。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种信息表征模型构建方法、信息表征方法,能够提高信息表征效果。
[0006]为了实现上述目的,本申请实施例提供的技术方案如下:
[0007]本申请实施例提供一种信息表征模型构建方法,所述方法包括:
[0008]获取至少一个样本多模态信息;
[0009]对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
[0010]利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
[0011]在一种可能的实施方式中,所述信息表征模型的构建过程,包括:
[0012]对各所述样本多模态信息进行数据提取处理,得到各所述样本多模态信息的数据提取结果;其中,所述数据提取结果包括至少一种数据信息;
[0013]利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型。
[0014]在一种可能的实施方式中,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型,包括:
[0015]根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量;
[0016]根据所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量,确定所述待训练模型的模型损失值;
[0017]依据所述待训练模型的模型损失值,更新所述待训练模型,并继续执行所述根据
待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述信息表征模型。
[0018]在一种可能的实施方式中,所述待训练模型包括多模态编码网络和话题编码网络;
[0019]所述根据所述待训练模型,确定所述信息表征模型,包括:
[0020]将所述多模态编码网络,确定为所述信息表征模型。
[0021]在一种可能的实施方式中,所述待训练模型包括多模态编码网络和话题编码网络;
[0022]所述至少一个样本多模态信息的多模态编码向量的确定过程,包括:
[0023]将各所述样本多模态信息的数据提取结果输入所述多模态编码网络,得到所述多模态编码网络输出的各所述样本多模态信息的多模态编码向量;
[0024]所述至少一个样本多模态信息的话题编码向量的确定过程,包括:
[0025]将各所述样本多模态信息的话题提取内容输入所述话题编码网络,得到所述话题编码网络输出的各所述样本多模态信息的话题编码向量。
[0026]在一种可能的实施方式中,所述样本多模态信息的个数为N;
[0027]第n个样本多模态信息的数据提取结果的确定过程,包括:
[0028]对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
[0029]对所述第n个样本多模态信息进行图像提取处理,得到所述第n个样本多模态信息的图像数据;
[0030]对所述第n个样本多模态信息进行音频提取处理,得到所述第n个样本多模态信息的音频数据;
[0031]将所述第n个样本多模态信息的文本数据、所述第n个样本多模态信息的图像数据、以及所述第n个样本多模态信息的音频数据进行集合处理,得到所述第n个样本多模态信息的数据提取结果。
[0032]在一种可能的实施方式中,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型之前,所述方法还包括:
[0033]根据各所述样本多模态信息的话题提取内容,更新各所述样本多模态信息的数据提取结果。
[0034]在一种可能的实施方式中,所述样本多模态信息的个数为N;第n个样本多模态信息的数据提取结果包括所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
[0035]所述第n个样本多模态信息的数据提取结果的更新过程,包括:
[0036]根据所述第n个样本多模态信息的话题提取内容,确定所述第n个样本多模态信息对应的至少一个待删除对象;
[0037]从所述第n个样本多模态信息的文本数据中,删除所述第n个样本多模态信息对应
的至少一个待删除对象,得到所述第n个样本多模态信息的更新后文本;
[0038]利用所述第n个样本多模态信息的更新后文本,更新所述第n个样本多模态信息的数据提取结果。
[0039]在一种可能的实施方式中,所述样本多模态信息的个数为N;
[0040]第n个样本多模态信息的话题提取内容的确定过程,包括:
[0041]对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
[0042]若确定所述第n个样本多模态信息的文本数据中存在预设话题标识符,则依据所述预设话题标识符,对所述第n个样本多模态信息的文本数据进行话题提取处理,得到所述第n个样本多模态信息的话题提取内容。
[0043]在一种可能的实施方式中,所述方法还包括:
[0044]若确定所述第n个样本多模态信息的文本数据中不存在预设话题标识符,则对所述第n个样本多模态信息的文本数据进行关键词提取处理,得到所述第n个样本多模态信息的关键词提取结果;
[0045]根据所述第n个样本多模态信息的关键词提取结果,确定所述第n个样本多模态信息的话题提取内容。
[0046]本申请实施例还提供了一种信息表征方法,所述方法包括:
[0047]获取待处理多模态信息;
[0048]利用预先构建的信息表征模型,确定所述待处理多模态信息的信息表征向量;其中,所述信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息表征模型构建方法,其特征在于,所述方法包括:获取至少一个样本多模态信息;对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。2.根据权利要求1所述的方法,其特征在于,所述信息表征模型的构建过程,包括:对各所述样本多模态信息进行数据提取处理,得到各所述样本多模态信息的数据提取结果;其中,所述数据提取结果包括至少一种数据信息;利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型,包括:根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量;根据所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量,确定所述待训练模型的模型损失值;依据所述待训练模型的模型损失值,更新所述待训练模型,并继续执行所述根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述信息表征模型。4.根据权利要求3所述的方法,其特征在于,所述待训练模型包括多模态编码网络和话题编码网络;所述根据所述待训练模型,确定所述信息表征模型,包括:将所述多模态编码网络,确定为所述信息表征模型。5.根据权利要求3所述的方法,其特征在于,所述待训练模型包括多模态编码网络和话题编码网络;所述至少一个样本多模态信息的多模态编码向量的确定过程,包括:将各所述样本多模态信息的数据提取结果输入所述多模态编码网络,得到所述多模态编码网络输出的各所述样本多模态信息的多模态编码向量;所述至少一个样本多模态信息的话题编码向量的确定过程,包括:将各所述样本多模态信息的话题提取内容输入所述话题编码网络,得到所述话题编码网络输出的各所述样本多模态信息的话题编码向量。6.根据权利要求2所述的方法,其特征在于,所述样本多模态信息的个数为N;第n个样本多模态信息的数据提取结果的确定过程,包括:
对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;对所述第n个样本多模态信息进行图像提取处理,得到所述第n个样本多模态信息的图像数据;对所述第n个样本多模态信息进行音频提取处理,得到所述第n个样本多模态信息的音频数据;将所述第n个样本多模态信息的文本数据、所述第n个样本多模态信息的图像数据、以及所述第n个样本多模态信息的音频数据进行集合处理,得到所述第n个样本多模态信息的数据提取结果。7.根据权利要求2所述的方法,其特征在于,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型之前,所述方法还包括:根据各所述样本多模态信息的话题提取内容,更新各所述样本多模态信息的数据...

【专利技术属性】
技术研发人员:郭龙腾袁泽寰赵修影
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1