多模态信息处理方法、装置、设备及存储介质制造方法及图纸

技术编号:26890792 阅读:26 留言:0更新日期:2020-12-29 16:07
本申请实施例提供一种多模态信息处理方法、装置、设备及存储介质。该方法包括:获取至少一种第一模态信息;根据至少一种第一模态信息,确定至少一种第一模态信息对应的多模态信息;输出多模态信息。从而可以满足用户需求,也可以提高该多模态信息处理方法的适用性。

【技术实现步骤摘要】
多模态信息处理方法、装置、设备及存储介质
本申请实施例涉及计算机
,并且更具体地,涉及一种多模态信息处理方法、装置、设备及存储介质。
技术介绍
目前许多信息查询技术都综合运用了自然语言处理、信息检索、人工智能等技术。例如:智能问答技术是综合运用了自然语言处理、信息检索、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同,自动问答系统以自然语音句子提问,系统分析并理解用户的问题,返回用户想要的答案。
技术实现思路
本申请实施例提供了一种多模态信息处理方法、装置、设备及存储介质。第一方面,本申请实施例提供一种多模态信息处理方法,包括:获取至少一种第一模态信息;根据至少一种第一模态信息,确定至少一种第一模态信息对应的多模态信息;输出多模态信息。第二方面,本申请实施例提供一种多模态信息处理方法,包括:获取第一训练数据,第一训练数据包括:至少一种第二模态信息;通过第一训练数据训练预训练语言模型;其中,预训练语言模型用于根据至少一种第一模态信息,确定至少一种第一模态信息对应的多模态信息。第三方面,本申请实施例提供一种多模态信息处理装置,包括:第一获取模块、确定模块、输出模块,其中,第一获取模块用于获取至少一种第一模态信息;确定模块用于根据至少一种第一模态信息,确定至少一种第一模态信息对应的多模态信息;输出模块用于输出多模态信息。第四方面,本申请实施例提供一种多模态信息处理装置,包括:第一获取模块和第一训练模块,其中第一获取模块用于获取第一训练数据,第一训练数据包括:至少一种第二模态信息;第一训练模块用于通过第一训练数据训练预训练语言模型;其中,预训练语言模型用于根据至少一种第一模态信息,确定至少一种第一模态信息对应的多模态信息。第五方面,提供了一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行本申请任意实施例的方法。第六方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行本申请任意实施例的方法。在本申请实施例中,可以根据至少一种第一模态信息,确定至少一种第一模态信息对应的多模态信息,即在本申请实施例中,实现了单模态或者多模态信息输入,和,多模态信息输出,相对于单模态信息输入输出的方式,这种单模态或者多模态信息输入,和,多模态信息输出可以满足用户对信息多样性呈现的需求,也可以提高该多模态信息处理方法的适用性。进一步地,本申请实施例通过预训练语言模型实现端到端的输入和输出,即该预训练语言模型是基于神经网络的模型,只需要将至少一种模态信息输入至该模型,即可输出多模态信息。这种端到端的输入和输出方式可以提高信息处理效率。更进一步地,本申请实施例基于神经网络的模型进行信息处理,而不是基于传统的机器学习模型或者是人工规则进行信息处理,相对于基于传统的机器学习模型或者是人工规则的信息处理方式,本申请基于神经网络模型的信息处理方式可以提高信息处理效率。附图说明图1A是本申请一实施例提供的智能问答场景示意图;图1B是本申请一实施例提供的智能问答场景示意图;图2为本申请一实施例提供的多模态信息处理过程的示意图;图3为本申请一实施例提供的图像模态的问题示意图;图4为本申请一实施例提供的一种多模态信息处理方法的流程图;图5为本申请一实施例提供的确定多模态信息的方法流程图;图6为本申请一实施例提供的预训练语言模型的示意图;图7为本申请另一实施例提供的预训练语言模型的示意图;图8为本申请另一实施例提供的确定多模态信息的方法流程图;图9为本申请再一实施例提供的预训练语言模型的示意图;图10为本申请又一实施例提供的预训练语言模型的示意图;图11为本申请另一实施例提供的一种多模态信息处理方法的流程图;图12为本申请再一实施例提供的一种多模态信息处理方法的流程图;图13为本申请一实施例提供的对至少一种第三参考信息的处理方法流程图;图14为本申请另一实施例提供的对至少一种第三参考信息的处理方法流程图;图15为本申请一实施例提供的一种多模态信息处理装置1500的示意图;图16为本申请一实施例提供的一种多模态信息处理装置1600的示意图;图17是本申请实施例提供的电子设备1700的示意性框图。具体实施方式目前智能问答系统的输入是单一的文本问题,输出也是单一的文本答案,显然,目前的信息查询技术,如基于目前智能问答系统的单一模态的信息处理方式,无法满足用户的需求,存在适用性较低的问题。为了解决上述技术问题,本申请的专利技术构思是:将对输入的单模态信息或者多模态信息进行向量表征以及信息融合,以输出多模态信息。本申请实施例的技术方案可适用于如下场景,但不限于此:场景一:智能问答场景,例如:用户可以进入如图1A所示的智能问答界面,用户在该智能问答界面上的交互即为一种智能问答场景。图1A目前所示的是图像模态问题,用户还可以在该界面上输入语音、视频、文本等模态的问题。可选地,用户可以点击终端上的某插件、图标或者虚拟按钮,以进入该智能问答界面。其中,智能问答界面的呈现方式多种多样,图1A所示的是一种智能问答界面,图1B是用户点击某应用(Application,APP)上的“客服”图标,进入的另一种智能问答界面。场景二:其他预测场景,例如:预测当前句子的下一个句子,或者预测句子间的连贯性。应理解的是,在本申请实施例中,终端设备可以是蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol,SIP)电话、无线本地环路(WirelessLocalLoop,WLL)站、个人数字处理(PersonalDigitalAssistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备等,本申请实施例对此不作限制。下面将对本申请实施例技术方案进行详细阐述:在本申请实施例中:通过预训练语言模型对输入的单模态信息或者多模态信息进行向量表征以及信息融合,以输出多模态信息。因此,下面将重点介绍如何通过预训练语言模型对输入的单模态信息或者多模态信息进行向量表征以及信息融合,以输出多模态信息和预训练语言模型的训练过程。其中,对预训练语言模型的训练可以分为无监督训练和有监督训练。示例性地,以应用于智能问答场景为例,图2为本申请一实施例提供的多模态信息处理过程的示意图,如图2所示,有监督训练中需要对数据进行标注,即输入模型的数据包括如下两元组<至少一种模态问题,多模态答案>,或者,输入模型的数据包括如下三元组<至少一种模态问题,至少一个参考信息,多模态答案>,该参考信息是模态问题的参考信息,也被描述为参考资料。进一步地,可以通过标注的数据对预训练语言模型进行训练。更进一步地,可以向训练本文档来自技高网...

【技术保护点】
1.一种多模态信息处理方法,其特征在于,包括:/n获取至少一种第一模态信息;/n根据所述至少一种第一模态信息,确定所述至少一种第一模态信息对应的多模态信息;/n输出所述多模态信息。/n

【技术特征摘要】
1.一种多模态信息处理方法,其特征在于,包括:
获取至少一种第一模态信息;
根据所述至少一种第一模态信息,确定所述至少一种第一模态信息对应的多模态信息;
输出所述多模态信息。


2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一种第一模态信息,确定所述至少一种第一模态信息对应的多模态信息之前,还包括:
获取所述至少一种第一模态信息对应的至少一种第一参考信息;
相应的,所述根据所述至少一种第一模态信息,确定所述至少一种第一模态信息对应的多模态信息,包括:
根据所述至少一种第一模态信息和所述至少一种第一参考信息,确定所述至少一种第一模态信息对应的多模态信息。


3.根据权利要求2所述的方法,其特征在于,根据所述至少一种第一模态信息和所述至少一种第一参考信息,确定所述至少一种第一模态信息对应的多模态信息,包括:
针对所述至少一种第一模态信息中每一种第一模态信息,将所述第一模态信息映射为多个第一表征向量,任一个所述第一表征向量用于表征所述第一模态信息中任一个元素的时空信息、内容或者类型;
针对所述至少一种第一参考信息中每一种第一参考信息,将所述第一参考信息映射为多个第二表征向量,任一个所述第二表征向量用于表征所述第一参考信息中任一元素的时空信息、内容或者类型;
对所述至少一种第一模态信息对应的多个第一表征向量和所述至少一种第一参考信息对应的多个第二表征向量进行融合,得到融合后的向量;
根据所述融合后的向量确定所述至少一种第一模态信息对应的多模态信息。


4.根据权利要求1所述的方法,其特征在于,所述根据所述至少一种第一模态信息,确定所述至少一种第一模态信息对应的多模态信息,包括:
针对所述至少一种第一模态信息中每一种第一模态信息,将所述第一模态信息映射为多个第一表征向量,任一个所述第一表征向量用于表征所述第一模态信息中任一个元素的时空信息、内容或者类型;
对所述至少一种第一模态信息对应的多个第一表征向量进行融合,得到融合后的向量;
根据所述融合后的向量确定所述至少一种第一模态信息对应的多模态信息。


5.根据权利要求1-4任一项所述的方法,其特征在于,一种模态是文本模态、语音模态、图像模态或者视频模态。


6.根据权利要求1-4任一项所述的方法,其特征在于,所述第一模态信息为第一模态问题,所述多模态信息为多模态答案。


7.一种多模态信息处理方法,其特征在于,包括:
获取第一训练数据,所述第一训练数据包括:至少一种第二模态信息;
通过所述第一训练数据训练预训练语言模型;
其中,所述预训练语言模型用于根据至少一种第一模态信息,确定所述至少一种第一模态信息对应的多模态信息。


8.根据权利要求7所述的方法,其特征在于,所述第一训练数据还包括:所述至少一种第二模态信息对应的至少一种第二参考信息。


9.根据权利要求7所述的方法,其特征在于,还包括:
获取第二训练数据,所述第二训练数据包括:至少一种第三模态信息和所述至少一种第三模态信息对应的至少一种模态信息;
通过所述第二训练数据训练所述预训练语言模型。


10.根据权利要求9所述的方法,其特征...

【专利技术属性】
技术研发人员:柴琛林李航
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1