一种多模态数据关联方法和装置制造方法及图纸

技术编号：26531112 阅读：26 留言：0更新日期：2020-12-01 14:11

本发明专利技术提供了一种多模态数据关联方法和装置，涉及数据处理的技术领域，包括：获取待处理数据，其中，待处理数据的类型包括：视频数据，图片数据和文本数据；构建待处理数据的语义图；利用图卷积网络计算语义图的表示向量；基于表示向量，确定待处理数据的数据关联结果，解决了现有数据关联方法的普适性较差，无法确定不同模态数据的数据关联的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态数据关联方法和装置
本专利技术涉及数据处理
，尤其是涉及一种多模态数据关联方法和装置。
技术介绍
在显现技术中，以图片标注技术为代表，现有多模态数据的处理通常采用编解码框架，基本都是针对特定的两种模态，当涉及到多种模态的时候，往往需要与数据种类成二次方关系数量的编解码结构，也就是说现在基本不存在简单直接的多模态数据处理方法。另外，在数据关联任务上，即使是只对两种模态进行处理，现有的方法也没有达到最理想的效果。以基于图片标注模型的图片和文本数据关联为例，其中的图片标注模型由卷积神经网络和循环神经网络组成，要训练出性能比较好的神经网络，需要大量的训练数据，而且如果应用时数据和训练数据的特点不一致，模型的性能就会大幅度下降，而这些困难在现实中进行多模态数据关联时是很常见的。另外，目前的图片标注生成模型大多倾向于只为图片生成一条高度概括的文本，这可能会使得系统忽略掉很多细节，从而导致在数据关联时无法匹配到相应的数据。更严重的是，如果训练数据和调参过程不理想，标注模型给出的语句的信息量会下降到无法用来进行数据关联的程度，比如图片标注模型为了使得生成的语句在形式上和训练文本相似，会在语句中加入很多无意义但又经常出现的虚词。最后，模型的性能和规模之间也存在着矛盾，图片标注模型中的卷积神经网络部分的参数量很大，训练需要的硬件与时间成本高，但如果减少参数量以缩减成本的话，模型的效果也会下降，归根结底是输入的图片数据空间太大，所以处理起来困难。针对上述问题，还未提出有效的解决方案。专利技术

【技术保护点】
1.一种多模态数据关联方法，其特征在于，包括：/n获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；/n构建所述待处理数据的语义图；/n利用图卷积网络计算所述语义图的表示向量；/n基于所述表示向量，确定所述待处理数据的数据关联结果。/n

【技术特征摘要】
1.一种多模态数据关联方法，其特征在于，包括：
获取待处理数据，其中，所述待处理数据的类型包括：视频数据，图片数据和文本数据；
构建所述待处理数据的语义图；
利用图卷积网络计算所述语义图的表示向量；
基于所述表示向量，确定所述待处理数据的数据关联结果。

2.根据权利要求1所述的方法，其特征在于，若所述待处理数据为所述视频数据；构建所述待处理数据的语义图，包括：
确定出所述待处理数据中的第一关键帧，其中，所述第一关键帧为包含语义的图片帧；
基于所述第一关键帧的语义，确定出所述第一关键帧对应的预设语义节点符号，其中，所述预设语义节点符号包括：实体节点符号，关系节点符号，属性节点符号，属性节点符号，结构节点符号；
利用所述预设语义节点符号的连接关系，构建所述第一关键帧的语义序列图；
对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图。

3.根据权利要求2所述的方法，其特征在于，对所述第一关键帧的语义序列图进行合并，得到所述待处理数据的语义图，包括：
对所述语义序列图中的预设语义节点进行合并，得到所述待处理数据的语义图。

4.根据权利要求2所述的方法，其特征在于，若所述待处理数据为所述图片数据；构建所述待处理数据的语义图，包括：
将所述图片数据确定为第二关键帧；
基于所述第二关键帧的语义，确定出所述第二关键帧对应的预设语义节点符号；
利用所述预设语义节点符号的连接关系，构建所述第二关键帧的语义序列图；
将所述第二关键帧的语义序列图确定为所述待处理数据的语义图。

5.根据权利要求2所述的方法，其特征在于，若所述待处理数据为所述文本数据；构建所述待处理数据的语义图，包括：
利用实体抽取和关系抽取，确定出所述待处理数据对应的预设语义节点符号；
利用所述预设语义节点符号的连接关系，构建所述待处理数据的语义序列图；

【专利技术属性】
技术研发人员：陶晓明，段一平，李明哲，徐迈，邓欣，
申请(专利权)人：清华大学，北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人