人机交互方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36951164 阅读：52 留言：0更新日期：2023-03-22 19:11

本发明专利技术提供一种人机交互方法、装置、电子设备及存储介质，其中方法包括：获取指代场景下的用户图像和用户语音；对所述用户图像进行指代动作识别，得到所述用户图像中的指代方向信息；基于所述指代方向信息，从所述指代场景中确定出候选物品；基于所述用户语音的语义信息，从所述候选物品中确定出指代物品；基于所述指代物品，进行人机交互。本发明专利技术提供的方法、装置、电子设备及存储介质，图像与语音的结合保证了指代物品确定的可靠性和准确性，且方法执行无需用户提前熟悉操作指令，也不要求指代场景下的物品携带设备标识符，极大降低了基于指代消解的人机交互的执行门槛，有助于扩宽人机交互的应用范围。机交互的应用范围。机交互的应用范围。

全部详细技术资料下载

【技术实现步骤摘要】
人机交互方法、装置、电子设备及存储介质

[0001]本专利技术涉及人机交互
，尤其涉及一种人机交互方法、装置、电子设备及存储介质。

技术介绍

[0002]“指代”指的是在语言学及日常用语中，在下文采用简称或者代称来代替上文出现的某一词语。指代能够避免在交互过程中同一词语重复出现所造成的语句臃肿、赘述等问题。用语分析和确定这种代词所指的对象的技术被称为指代消解技术。
[0003]现有技术中，主要通过建立全局指代数据库的方法，或者激活扫描仪来扫描物体的标识符的方法进行指代消解。其中，建立全局指代数据库的方法，要求用户使用人机交互系统，人机交互系统需要对用户的日常习惯等信息有充分的了解，并不适用于新用户。而激活扫描仪来扫描物体的标识符的方法，要求参与到人机交互的所有物体都必须配置有设备标识符，并不适用于常见的家居控制、座舱设备控制、闲聊等场景。
[0004]因此，亟需一种行之有效的指代消解技术，以扩宽人机交互的应用场景。

技术实现思路

[0005]本专利技术提供一种人机交互方法、装置、电子设备及存储介质，用以解决现有技术中指代消解的可用性差，限制了人机交互推广的缺陷。
[0006]本专利技术提供一种人机交互方法，包括：
[0007]获取指代场景下的用户图像和用户语音；
[0008]对所述用户图像进行指代动作识别，得到所述用户图像中的指代方向信息；
[0009]基于所述指代方向信息，从所述指代场景中确定出候选物品；
[0010]基于所述用户语音的语

【技术保护点】

【技术特征摘要】
1.一种人机交互方法，其特征在于，包括：获取指代场景下的用户图像和用户语音；对所述用户图像进行指代动作识别，得到所述用户图像中的指代方向信息；基于所述指代方向信息，从所述指代场景中确定出候选物品；基于所述用户语音的语义信息，从所述候选物品中确定出指代物品；基于所述指代物品，进行人机交互。2.根据权利要求1所述的人机交互方法，其特征在于，所述对所述用户图像进行指代动作识别，得到所述用户图像中的指代方向信息，包括：对所述用户图像进行手势识别，得到所述用户图像中的手势信息；对所述用户图像进行视线识别，得到所述用户图像中的视线信息；基于所述手势信息，和/或，所述视线信息，确定所述用户图像中的指代方向信息。3.根据权利要求1所述的人机交互方法，其特征在于，所述用户语音的语义信息的确定步骤包括：对所述用户语音的转写文本进行实体识别，得到文本实体；基于所述文本实体，确定所述语义信息。4.根据权利要求3所述的人机交互方法，其特征在于，所述基于所述文本实体，确定所述语义信息，包括：基于所述转写文本，确定所述文本实体之间的关系；基于所述文本实体之间的关系，确定所述语义信息。5.根据权利要求1所述的人机交互方法，其特征在于，所述基于所述指代物品，进行人机交互，包括：基于所述用户语音的转写文本中指代词的指代类型，以及所述指代物品的物品类型，对所述指代词和所述指代物品进行匹配；对所述转写文本中与所述指代物品相匹配的指代词进行内容替换，得到交互信息；基于所述交互信息，进行人机交互。6.根据权利要求5所述的人机交互方法，其特征在于，所述基于所述交互信息，进行人机交互，包括：基于所述转写文本，确定所述用户语音的语音类型...

【专利技术属性】
技术研发人员：周建明，龙明康，蒋兵兵，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人