一种多模态输入交互方法、装置、机器人和存储介质制造方法及图纸

技术编号:29305893 阅读:16 留言:0更新日期:2021-07-17 01:49
本申请实施例提供一种多模态输入交互方法、装置、机器人和存储介质,该多模态输入交互方法包括:获取至少一条输入信息;对所述至少一条输入信息进行意图识别,得到目标意图;根据所述目标意图和与所述目标意图对应的页面信息,获取交互信息,其中,所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的;输出所述交互信息。本申请的一些实施例提供的多模态输入交互方法将目标意图与对应的页面信息相结合,针对用户同样内容的输入信息,可以识别出用户差异化需求,提升用户体验。提升用户体验。提升用户体验。

A multimodal input interaction method, device, robot and storage medium

【技术实现步骤摘要】
一种多模态输入交互方法、装置、机器人和存储介质


[0001]本申请涉及计算机应用
,具体而言,涉及一种多模态输入交互方法、装置、机器人和存储介质。

技术介绍

[0002]随着数字化和智能化技术在各个领域的深入发展,更多的智能化设备在生活中发挥作用。当前,很多智能终端设备,可同时支持触屏输入和语音输入。
[0003]因此如何提升利用触屏或语音等多模态方式与智能设备交互成为亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的目的在于提供一种多模态输入交互方法、装置、机器人和存储介质,本申请的一些实施例通过将意图识别后得到的目标意图与对应页面信息相结合,生成交互信息的方法,针对用户的输入的同样内容的信息,可以识别出差异化需求,改善了人机交互效果并提升了用户体验。
[0005]第一方面,本申请的一些实施例提供一种多模态输入交互方法,包括:获取至少一条输入信息;根据所述至少一条输入信息进行意图识别,得到目标意图;根据所述目标意图和与所述目标意图对应的页面信息,获取交互信息,其中,所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的;输出所述交互信息。
[0006]本申请实施例将意图识别后得到的目标意图与对应页面信息相结合,生成交互信息,针对用户同样内容的输入信息,可以识别出差异化需求,提升用户体验。
[0007]在一些实施例中,所述根据所述至少一条输入信息进行意图识别,得到目标意图,包括:识别所述至少一条输入信息中的干扰输入信息;从所述至少一条输入信息中,滤除所述干扰输入信息,得到有效输入信息;根据所述有效输入信息进行意图识别,得到所述目标意图。
[0008]本申请实施例从输入信息中识别出干扰信息并滤除,排除不相关信息的干扰,提高了目标意图的准确性。
[0009]在一些实施例中,所述识别所述至少一条输入信息中的干扰输入信息,包括:根据所述至少一条输入信息中各条输入信息的输入时间识别所述干扰输入信息。
[0010]本申请实施例通过至少一条输入信息中各条输入信息的输入时间来判断是否是干扰信息,为判断干扰信息提供了一种有效的方法。
[0011]在一些实施例中,所述根据所述至少一条输入信息进行意图识别,得到目标意图,包括:获取第一输入信息的输入时间和第二输入信息的输入时间的差值;确认所述差值大于设定阈值;至少根据所述第二输入信息进行意图识别,得到所述目标意图。
[0012]本申请实施例提供了一种根据相邻两个输入信息的输入时间的差值来判断干扰信息的方法,即确认相邻的两个输入信息之间的时间间隔大于设定阈值,从而能有效滤除
干扰信息,提高意图识别的准确性。
[0013]在一些实施例中,所述根据所述至少一条输入信息进行意图识别,包括:根据所述至少一条输入信息获取所述输入信息对应的目标格式文件,对所述目标格式文件进行意图识别。
[0014]本申请实施例根据输入信息生成所述信息对应的目标格式文件,再对所述目标格式文件进行意图识别,可以方便各种模态的输入信息均可以被同一意图识别模型所识别,即可以将各种模态的输入信息转化成目标格式文件后,输入训练好的意图识别模型进行意图识别,提高了意图识别的效率。
[0015]在一些实施例中,所述输入信息包括语音信息;所述根据所述至少一条输入信息进行意图识别,包括:根据所述语音信息进行语音识别,得到语音识别结果;根据所述语音识别结果得到文本格式文件;根据所述文本格式文件进行意图识别。
[0016]本申请实施例通过对语音输入信息进行语音识别,再根据语音识别结果得到的文本格式文件进行意图识别,可以采用现有的语义识别模型对语音进行识别并转化为文本文件,提升目标意图识别的处理速度。
[0017]在一些实施例中,所述输入信息包括触屏信息;所述根据所述至少一条输入信息进行意图识别,包括:根据所述触屏信息对应按钮在所属页面中的信息得到所述触屏信息对应的第一目标格式文件;根据所述第一目标格式文件进行意图识别。
[0018]本申请实施例根据触屏信息对应按钮在所属页面中的信息,得到所述触屏信息对应的第一目标格式文件,然后再根据第一目标格式文件进行意图识别,可以采用现有的深度学习模型对所述第一目标格式文件进行意图识别,降低了意图识别的难度。
[0019]第二方面,本申请一些实施例提供一种多模态输入交互装置,包括:输入模块,所述输入模块被配置为获取至少一条输入信息;识别模块,所述识别模块被配置为根据所述至少一条输入信息进行意图识别,得到目标意图;获取模块,所述获取模块被配置为根据所述目标意图和与所述目标意图对应的页面信息,获取交互信息,其中,所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的;输出模块,所述输出模块被配置为输出所述交互信息。
[0020]第三方面,本申请一些实施例提供一种机器人,包括:输入设备,被配置为获取至少一条输入信息;输出设备,被配置为用于输出交互信息或与目标意图对应的页面;存储器,被配置为存储计算机可读取指令程序;处理器,被配置为根据所述至少一条输入信息实现上述第一方面或第一方面的任意可能的实现方式中所述的方法。
[0021]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现上述第一方面或第一方面的任意可能的实现方式中所述的方法。
附图说明
[0022]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0023]图1为本申请实施例提供的一种多模态输入交互方法的使用场景示意图;
[0024]图2为本申请实施例提供的一种多模态输入交互方法的流程图之一;
[0025]图3为本申请实施例提供的一种多模态输入交互方法的流程图之二;
[0026]图4为本申请实施例提供的一种多模态输入交互方法的流程图之三;
[0027]图5为本申请实施例提供的一种多模态输入交互方法的流程图之四;
[0028]图6为本申请实施例提供的一种多模态输入交互装置的组成框图之一;
[0029]图7为本申请实施例提供的一种多模态输入交互装置的组成框图之二;
[0030]图8为本申请实施例提供的机器人的组成框图。
具体实施方式
[0031]下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态输入交互方法,其特征在于,所述方法包括:获取至少一条输入信息;根据所述至少一条输入信息进行意图识别,得到目标意图;根据所述目标意图和与所述目标意图对应的页面信息,获取交互信息,其中,所述页面信息是根据用于识别所述目标意图的所有所述输入信息得到的;输出所述交互信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一条输入信息进行意图识别,得到目标意图,包括:识别所述至少一条输入信息中的干扰输入信息;从所述至少一条输入信息中,滤除所述干扰输入信息,得到有效输入信息;根据所述有效输入信息进行意图识别,得到所述目标意图。3.根据权利要求2所述的方法,其特征在于,所述识别所述至少一条输入信息中的干扰输入信息,包括:根据所述至少一条输入信息中各条输入信息的输入时间识别所述干扰输入信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述至少一条输入信息进行意图识别,得到目标意图,包括:获取第一输入信息的输入时间和第二输入信息的输入时间的差值;确认所述差值大于设定阈值;至少根据所述第二输入信息进行意图识别,得到所述目标意图。5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一条输入信息进行意图识别,包括:根据所述至少一条输入信息获取所述输入信息对应的目标格式文件,对所述目标格式文件进行意图识别。6.根据权利要求1所述的方法,其特征在于,所述输入信息包括语音信息;所述根据所...

【专利技术属性】
技术研发人员:张献涛暴筱林小俊支涛
申请(专利权)人:北京云迹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1