【技术实现步骤摘要】
一种信息表征模型构建方法、信息表征方法
[0001]本申请涉及数据处理
,尤其涉及一种信息表征模型构建方法、信息表征方法。
技术介绍
[0002]信息表征是指针对某信息数据(例如,图文、视频、音频等)进行内容编码表示,得到该信息数据的编码表征向量,以便后续能够利用该编码表征向量进行下游分析处理(例如,内容识别、内容分析、内容理解等)。
[0003]另外,信息表征在内容标签、内容审核、内容推荐、内容搜索等众多应用领域都起到基础性的作用。
[0004]然而,因信息表征技术存在缺陷,导致信息表征效果比较差。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种信息表征模型构建方法、信息表征方法,能够提高信息表征效果。
[0006]为了实现上述目的,本申请实施例提供的技术方案如下:
[0007]本申请实施例提供一种信息表征模型构建方法,所述方法包括:
[0008]获取至少一个样本多模态信息;
[0009]对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
[0010]利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
[0011]在一种可能的实施方式中,所述信息表征模型的构建过程,包括:
[0012]对各所述样本多模态信息进行数据提取处理,得到各所述 ...
【技术保护点】
【技术特征摘要】
1.一种信息表征模型构建方法,其特征在于,所述方法包括:获取至少一个样本多模态信息;对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。2.根据权利要求1所述的方法,其特征在于,所述信息表征模型的构建过程,包括:对各所述样本多模态信息进行数据提取处理,得到各所述样本多模态信息的数据提取结果;其中,所述数据提取结果包括至少一种数据信息;利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型,包括:根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量;根据所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量,确定所述待训练模型的模型损失值;依据所述待训练模型的模型损失值,更新所述待训练模型,并继续执行所述根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述信息表征模型。4.根据权利要求3所述的方法,其特征在于,所述待训练模型包括多模态编码网络和话题编码网络;所述根据所述待训练模型,确定所述信息表征模型,包括:将所述多模态编码网络,确定为所述信息表征模型。5.根据权利要求3所述的方法,其特征在于,所述待训练模型包括多模态编码网络和话题编码网络;所述至少一个样本多模态信息的多模态编码向量的确定过程,包括:将各所述样本多模态信息的数据提取结果输入所述多模态编码网络,得到所述多模态编码网络输出的各所述样本多模态信息的多模态编码向量;所述至少一个样本多模态信息的话题编码向量的确定过程,包括:将各所述样本多模态信息的话题提取内容输入所述话题编码网络,得到所述话题编码网络输出的各所述样本多模态信息的话题编码向量。6.根据权利要求2所述的方法,其特征在于,所述样本多模态信息的个数为N;第n个样本多模态信息的数据提取结果的确定过程,包括:
对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;对所述第n个样本多模态信息进行图像提取处理,得到所述第n个样本多模态信息的图像数据;对所述第n个样本多模态信息进行音频提取处理,得到所述第n个样本多模态信息的音频数据;将所述第n个样本多模态信息的文本数据、所述第n个样本多模态信息的图像数据、以及所述第n个样本多模态信息的音频数据进行集合处理,得到所述第n个样本多模态信息的数据提取结果。7.根据权利要求2所述的方法,其特征在于,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型之前,所述方法还包括:根据各所述样本多模态信息的话题提取内容,更新各所述样本多模态信息的数据...
【专利技术属性】
技术研发人员:郭龙腾,袁泽寰,赵修影,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。