人机交互方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36951164 阅读:52 留言:0更新日期:2023-03-22 19:11
本发明专利技术提供一种人机交互方法、装置、电子设备及存储介质,其中方法包括:获取指代场景下的用户图像和用户语音;对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息;基于所述指代方向信息,从所述指代场景中确定出候选物品;基于所述用户语音的语义信息,从所述候选物品中确定出指代物品;基于所述指代物品,进行人机交互。本发明专利技术提供的方法、装置、电子设备及存储介质,图像与语音的结合保证了指代物品确定的可靠性和准确性,且方法执行无需用户提前熟悉操作指令,也不要求指代场景下的物品携带设备标识符,极大降低了基于指代消解的人机交互的执行门槛,有助于扩宽人机交互的应用范围。机交互的应用范围。机交互的应用范围。

【技术实现步骤摘要】
人机交互方法、装置、电子设备及存储介质


[0001]本专利技术涉及人机交互
,尤其涉及一种人机交互方法、装置、电子设备及存储介质。

技术介绍

[0002]“指代”指的是在语言学及日常用语中,在下文采用简称或者代称来代替上文出现的某一词语。指代能够避免在交互过程中同一词语重复出现所造成的语句臃肿、赘述等问题。用语分析和确定这种代词所指的对象的技术被称为指代消解技术。
[0003]现有技术中,主要通过建立全局指代数据库的方法,或者激活扫描仪来扫描物体的标识符的方法进行指代消解。其中,建立全局指代数据库的方法,要求用户使用人机交互系统,人机交互系统需要对用户的日常习惯等信息有充分的了解,并不适用于新用户。而激活扫描仪来扫描物体的标识符的方法,要求参与到人机交互的所有物体都必须配置有设备标识符,并不适用于常见的家居控制、座舱设备控制、闲聊等场景。
[0004]因此,亟需一种行之有效的指代消解技术,以扩宽人机交互的应用场景。

技术实现思路

[0005]本专利技术提供一种人机交互方法、装置、电子设备及存储介质,用以解决现有技术中指代消解的可用性差,限制了人机交互推广的缺陷。
[0006]本专利技术提供一种人机交互方法,包括:
[0007]获取指代场景下的用户图像和用户语音;
[0008]对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息;
[0009]基于所述指代方向信息,从所述指代场景中确定出候选物品;
[0010]基于所述用户语音的语义信息,从所述候选物品中确定出指代物品;
[0011]基于所述指代物品,进行人机交互。
[0012]根据本专利技术提供的一种人机交互方法,所述对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息,包括:
[0013]对所述用户图像进行手势识别,得到所述用户图像中的手势信息;
[0014]对所述用户图像进行视线识别,得到所述用户图像中的视线信息;
[0015]基于所述手势信息,和/或,所述视线信息,确定所述用户图像中的指代方向信息。
[0016]根据本专利技术提供的一种人机交互方法,所述用户语音的语义信息的确定步骤包括:
[0017]对所述用户语音的转写文本进行实体识别,得到文本实体;
[0018]基于所述文本实体,确定所述语义信息。
[0019]根据本专利技术提供的一种人机交互方法,所述基于所述文本实体,确定所述语义信息,包括:
[0020]基于所述转写文本,确定所述文本实体之间的关系;
[0021]基于所述文本实体之间的关系,确定所述语义信息。
[0022]根据本专利技术提供的一种人机交互方法,所述基于所述指代物品,进行人机交互,包括:
[0023]基于所述用户语音的转写文本中指代词的指代类型,以及所述指代物品的物品类型,对所述指代词和所述指代物品进行匹配;
[0024]对所述转写文本中与所述指代物品相匹配的指代词进行内容替换,得到交互信息;
[0025]基于所述交互信息,进行人机交互。
[0026]根据本专利技术提供的一种人机交互方法,所述基于所述交互信息,进行人机交互,包括:
[0027]基于所述转写文本,确定所述用户语音的语音类型,所述语音类型为问题语音或命令语音;
[0028]基于所述语音类型以及所述交互信息,进行人机交互。
[0029]根据本专利技术提供的一种人机交互方法,所述基于所述指代方向信息,从所述指代场景中确定出候选物品,包括:
[0030]对所述用户图像进行位置识别,得到所述用户图像中的用户位置信息;
[0031]基于所述用户位置信息和所述指代方向信息,从所述指代场景下的各模拟物品中,确定出候选物品;所述各模拟物品是预先对所述指代场景进行物品识别得到的。
[0032]本专利技术还提供一种人机交互装置,包括:
[0033]获取单元,用于获取指代场景下的用户图像和用户语音;
[0034]识别单元,用于对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息;
[0035]确定候选物品单元,用于基于所述指代方向信息,从所述指代场景中确定出候选物品;
[0036]确定指代物品单元,用于基于所述用户语音的语义信息,从所述候选物品中确定出指代物品;
[0037]人机交互单元,用于基于所述指代物品,进行人机交互。
[0038]本专利技术还提供一种电子设备,包括麦克风和摄像头,还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述麦克风用于采集指代场景下的用户语音;所述摄像头用于采集指代场景下的用户图像;
[0039]所述处理器执行所述计算机程序,以对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息;基于所述指代方向信息,从所述指代场景中确定出候选物品;基于所述用户语音的语义信息,从所述候选物品中确定出指代物品;基于所述指代物品,进行人机交互。
[0040]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人机交互方法。
[0041]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述人机交互方法。
[0042]本专利技术提供的人机交互方法、装置、电子设备及存储介质,结合用户图像所反映的
用户在行为上的指代方向,以及用户语音所反映的用户所表达语义所涵盖的指代信息,确定指代物品,由此实现基于指代物品的人机交互,图像与语音的结合保证了指代物品确定的可靠性和准确性,且方法执行无需用户提前熟悉操作指令,也不要求指代场景下的物品携带设备标识符,极大降低了基于指代消解的人机交互的执行门槛,有助于扩宽人机交互的应用范围。
附图说明
[0043]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1是本专利技术提供的人机交互方法的流程示意图;
[0045]图2是本专利技术提供的人机交互方法中步骤120的流程示意图;
[0046]图3是本专利技术提供的用户语音的语义信息的确定步骤;
[0047]图4是本专利技术提供的人机交互方法中步骤320的流程示意图;
[0048]图5是本专利技术提供的人机交互方法中步骤150的流程示意图;
[0049]图6是本专利技术提供的人机交互方法中步骤153的流程示意图;
[0050]图7是本专利技术提供的人机交互方法中步骤130的流程示意图;
[0051]图8是本专利技术提供的人机交互装置的结构示意图;
[0052]图9是本专利技术提供的电子设备的结构示意图。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种人机交互方法,其特征在于,包括:获取指代场景下的用户图像和用户语音;对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息;基于所述指代方向信息,从所述指代场景中确定出候选物品;基于所述用户语音的语义信息,从所述候选物品中确定出指代物品;基于所述指代物品,进行人机交互。2.根据权利要求1所述的人机交互方法,其特征在于,所述对所述用户图像进行指代动作识别,得到所述用户图像中的指代方向信息,包括:对所述用户图像进行手势识别,得到所述用户图像中的手势信息;对所述用户图像进行视线识别,得到所述用户图像中的视线信息;基于所述手势信息,和/或,所述视线信息,确定所述用户图像中的指代方向信息。3.根据权利要求1所述的人机交互方法,其特征在于,所述用户语音的语义信息的确定步骤包括:对所述用户语音的转写文本进行实体识别,得到文本实体;基于所述文本实体,确定所述语义信息。4.根据权利要求3所述的人机交互方法,其特征在于,所述基于所述文本实体,确定所述语义信息,包括:基于所述转写文本,确定所述文本实体之间的关系;基于所述文本实体之间的关系,确定所述语义信息。5.根据权利要求1所述的人机交互方法,其特征在于,所述基于所述指代物品,进行人机交互,包括:基于所述用户语音的转写文本中指代词的指代类型,以及所述指代物品的物品类型,对所述指代词和所述指代物品进行匹配;对所述转写文本中与所述指代物品相匹配的指代词进行内容替换,得到交互信息;基于所述交互信息,进行人机交互。6.根据权利要求5所述的人机交互方法,其特征在于,所述基于所述交互信息,进行人机交互,包括:基于所述转写文本,确定所述用户语音的语音类型...

【专利技术属性】
技术研发人员:周建明龙明康蒋兵兵
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1