多模态信息处理方法、装置、设备及存储介质制造方法及图纸

技术编号：26890792 阅读：26 留言：0更新日期：2020-12-29 16:07

本申请实施例提供一种多模态信息处理方法、装置、设备及存储介质。该方法包括：获取至少一种第一模态信息；根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息；输出多模态信息。从而可以满足用户需求，也可以提高该多模态信息处理方法的适用性。

全部详细技术资料下载

【技术实现步骤摘要】
多模态信息处理方法、装置、设备及存储介质
本申请实施例涉及计算机
，并且更具体地，涉及一种多模态信息处理方法、装置、设备及存储介质。
技术介绍
目前许多信息查询技术都综合运用了自然语言处理、信息检索、人工智能等技术。例如：智能问答技术是综合运用了自然语言处理、信息检索、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同，自动问答系统以自然语音句子提问，系统分析并理解用户的问题，返回用户想要的答案。
技术实现思路
本申请实施例提供了一种多模态信息处理方法、装置、设备及存储介质。第一方面，本申请实施例提供一种多模态信息处理方法，包括：获取至少一种第一模态信息；根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息；输出多模态信息。第二方面，本申请实施例提供一种多模态信息处理方法，包括：获取第一训练数据，第一训练数据包括：至少一种第二模态信息；通过第一训练数据训练预训练语言模型；其中，预训练语言模型用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。第三方面，本申请实施例提供一种多模态信息处理装置，包括：第一获取模块、确定模块、输出模块，其中，第一获取模块用于获取至少一种第一模态信息；确定模块用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息；输出模块用于输出多模态信息。第四方面，本申请实施例提供一种多模态信息处理装置，包括：第一获取模块和第一训练模块，其中第一获取模块用于获取第一训练数据，第一训练数据包括：至少...

【技术保护点】
1.一种多模态信息处理方法，其特征在于，包括：/n获取至少一种第一模态信息；/n根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息；/n输出所述多模态信息。/n

【技术特征摘要】
1.一种多模态信息处理方法，其特征在于，包括：
获取至少一种第一模态信息；
根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息；
输出所述多模态信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息之前，还包括：
获取所述至少一种第一模态信息对应的至少一种第一参考信息；
相应的，所述根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息，包括：
根据所述至少一种第一模态信息和所述至少一种第一参考信息，确定所述至少一种第一模态信息对应的多模态信息。

3.根据权利要求2所述的方法，其特征在于，根据所述至少一种第一模态信息和所述至少一种第一参考信息，确定所述至少一种第一模态信息对应的多模态信息，包括：
针对所述至少一种第一模态信息中每一种第一模态信息，将所述第一模态信息映射为多个第一表征向量，任一个所述第一表征向量用于表征所述第一模态信息中任一个元素的时空信息、内容或者类型；
针对所述至少一种第一参考信息中每一种第一参考信息，将所述第一参考信息映射为多个第二表征向量，任一个所述第二表征向量用于表征所述第一参考信息中任一元素的时空信息、内容或者类型；
对所述至少一种第一模态信息对应的多个第一表征向量和所述至少一种第一参考信息对应的多个第二表征向量进行融合，得到融合后的向量；
根据所述融合后的向量确定所述至少一种第一模态信息对应的多模态信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息，包括：
针对所述至少一种第一模态信息中每一种第一模态信息，将所述第一模态信息映射为多个第一表征向量，任一个所述第一表征向量用于表征所述第一模态信息中任一个元素的时空信息、内容或者类型；
对所述至少一种第一模态信息对应的多个第一表征向量进行融合，得到融合后的向量；
根据所述融合后的向量确定所述至少一种第一模态信息对应的多模态信息。

5.根据权利要求1-4任一项所述的方法，其特征在于，一种模态是文本模态、语音模态、图像模态或者视频模态。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述第一模态信息为第一模态问题，所述多模态信息为多模态答案。

7.一种多模态信息处理方法，其特征在于，包括：
获取第一训练数据，所述第一训练数据包括：至少一种第二模态信息；
通过所述第一训练数据训练预训练语言模型；
其中，所述预训练语言模型用于根据至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息。

8.根据权利要求7所述的方法，其特征在于，所述第一训练数据还包括：所述至少一种第二模态信息对应的至少一种第二参考信息。

9.根据权利要求7所述的方法，其特征在于，还包括：
获取第二训练数据，所述第二训练数据包括：至少一种第三模态信息和所述至少一种第三模态信息对应的至少一种模态信息；
通过所述第二训练数据训练所述预训练语言模型。

10.根据权利要求9所述的方法，其特征...

【专利技术属性】
技术研发人员：柴琛林，李航，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人