System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 人机交互方法及使用该方法的智能AI助手技术_技高网

人机交互方法及使用该方法的智能AI助手技术

技术编号:44342170 阅读:0 留言:0更新日期:2025-02-18 20:54
本公开提供一种人机交互方法和使用该方法的智能AI助手。该人机交互方法包括实时检测图像中的一个或多个人的人脸图像的像素坐标;估计所述一个或多个人的人脸与单目摄像头的距离;使用训练的卷积神经网络模型或者自训练的Transformer模型提取与单目摄像头相距预设距离以内的人脸图像的特征向量;计算预设距离以内的人脸图像的特征向量与存储的人脸特征向量的相似程度;和将计算的相似程度与预设的阈值进行比较判断预设距离以内的人是否在之前出现过。本公开的实施例利用单目摄像头比较准确且快速地获得人脸位置和人脸特征,使得虚拟形象与人进行更逼真的交互。

【技术实现步骤摘要】

本公开涉及图像处理技术,具体而言,涉及一种用于人机交互方法及使用该方法的智能ai助手。


技术介绍

1、为了实现虚拟形象与不特定对象(例如,路人)之间的眼神、手势、语言等深度交互,需要识别交互对象并且获得交互对象的位置信息。在识别过程中,交互对象可能离开屏幕再返回,此时系统会将其识别为新用户,不能继续之前的沟通内容。在多人场景下,因为每个人姿势、角度、距离屏幕远近等影响,可能无法准确判断交互对象,也就无法准确地进行智能交互。

2、在获得交互对象的位置信息过程中,当前可以采用双目或多目摄像头同时检测,以此来计算得到目标的三维信息。但该方法的成本较高,首先,多个摄像头的时间同步难以控制,且计算量庞大,难以以每秒30帧的帧率实时检测;其次,不同摄像头对同一待检测物体的检测位置具有不可忽略的量化误差,导致后续计算得到的三维位置坐标具有更大的误差。

3、如果采取单目摄像头确定交互对象的位置,目前的传统算法理论上只能用射影几何的方法确定人脸的极线的方向,无法确定深度信息,即交互对象与虚拟人的距离信息,从而无法提供逼真的交互,例如不能为虚拟人的眼神交互提供尽可能逼真的对视体验。此外,采用单目摄像头确定深度信息的现有技术路线还存在以下问题。如果根据不同远近的物体模糊程度不同,对物体的边缘模糊情形进行建模来推定物体的深度信息,这种方法对于图像分辨率的要求很高,在人脸检测的应用场景下,由于分辨率不足导致的图像模糊会剧烈影响对人脸距离相机的深度信息的估计。如果通过物体的表面阴影变化来推测深度信息,该种方法只适用于估测同一个连续表面上的相对深度,无法用于对人脸与摄像头的距离估计的应用场景。其他方法,例如从物体的遮挡关系推测深度信息、从大气散射造成的霾现象中推测深度信息等,都对图像里的物体类别和性质加入了很强的约束,场景非常局限,无法用于对人脸距离的估计。


技术实现思路

1、本公开提供一种用于人机交互的方法及使用该方法的智能ai助手,有助于实现智能的人机交互,实现更生动的交互体验。

2、为了解决上述技术问题中的至少之一,根据本公开的第一方面,提供了一种人机交互方法,其包括实时检测图像中的一个或多个人的人脸图像的像素坐标,所述被检测的图像来自单目摄像头;估计一个或多个人的人脸与所述单目摄像头的距离;使用训练的卷积神经网络模型或者自训练的transformer模型提取与所述单目摄像头相距预设距离以内的人脸图像的特征向量;计算预设距离以内的人脸图像的特征向量与存储的人脸特征向量的相似程度;和将计算的相似程度与预设的阈值进行比较来判断预设距离以内的人脸是否在之前出现过。

3、本公开的实施例通过上述方法可以利用单目摄像头比较准确且快速地获得人体头部的与摄像头的距离,尤其是深度信息。上述方法适用于图像中出现一人或多人的情形,在多人的情形下,可以获得每个人的头部与摄像头的距离,由此可以分辨每个人的位置,更准确地判断交互的对象。通过分辨交互对象的位置,虚拟形象也可以在屏幕的范围内变换位置,从而进行更加自然的交互,同时还能保证眼神等细节的交流。

4、根据本公开的一方面,可选的,如果根据计算的相似程度与所述预设的阈值进行比较判断预设距离以内的人没有出现过,将当前获取的声纹特征与存储的声纹特征进行比较;如果在存储的声纹特征中找到与其匹配的存储的声纹特征,则判断预设距离以内的人脸出现过,并根据所述存储的声纹特征和存储的人脸特征向量的对应关系调取对应的存储的人脸特征向量;和计算所述调取的存储的人脸特征向量与所述预设距离以内的人脸图像的特征向量的相似程度,如果根据所述相似程度与所述预设的阈值的比较结果确定是同一个人,则将用所述预设距离以内的人脸特征向量和所述调取的存储的人脸特征向量求平均来替代所述调取的存储的人脸特征向量;如果根据所述相似程度与所述预设的阈值的比较结果确定不是同一个人,则用所述所述预设距离以内的人脸特征向量替换所述调取的存储的人脸特征向量。

5、为了增加识别的准确性,可以通过声纹特征来确认当前的交互对象是否在之前出现过。例如,当通过人脸特征向量判断当前的交互对象之前没有出现过之后,如果采集到当前人的声纹特征,可以再通过声纹特征的比较来进一步确认,从而增加判断的准确性。如果声纹特征与存储的声纹特征都不匹配,那么就判断当前交互对象没有出现过,从而开启新的交互。如果通过声纹特征判断当前交互对象出现过,可以将当前人脸提取的特征向量与存储的与声纹特征对应的人脸特征向量进行比较,从而判断存储在数据库的人脸特征向量是否需要被替换。

6、根据本公开的一方面,可选的,所述估计一个或多个人脸与所述单目摄像头的距离包括根据所述一个或多个人脸的像素坐标、占据的像素尺寸和人体头部的先验尺寸估计所述人脸与所述单目摄像头的距离,所述人机交互方法还包括根据所述单目摄像头的内参矩阵和一个或多个人脸与所述单目摄像头的距离确定所述人脸的空间三维坐标,其由人脸中心点相对于所述单目摄像头的主光轴在横向和纵向偏移的距离以及人脸的中心点与所述单目摄像头的中心的距离来表示。

7、根据本公开的一方面,可选的,所述检测人体头部在图像中的像素坐标包括使用目标检测算法检测人体头部,得到头部矩形框。

8、根据本公开的一方面,可选的,估计一个或多个人的人脸与所述单目摄像头的距离包括使用depth vision transformer模型得到与人脸图像对应的深度图,来估计所述人脸与单目摄像头的距离,所述人机交互方法还包括根据单目摄像头的内参矩阵、一个或多个人的人脸与所述单目摄像头的距离和人脸的像素坐标确定所述人脸的空间三维坐标。

9、根据本公开的一方面,可选的,使用自训练的transformer模型提取与所述单目摄像头相距预设距离以内的人脸图像的特征向量包括:将输入的人脸图像数据y经由卷积层提取初步特征f0:其中,h和w表示输入的人脸图像的高度和宽度,c表示通道数,表示图像向量空间,h’和w’表示经过卷积层的输出特征图的高度和宽度,c’表示特征图的通道数,表示输出的特征向量空间;将图像块分割并展平,得到其中n是图像块的数量,p是图像块的大小,f0′是图像分块展平之后的特征向量,是图像分块展平之后的特征向量空间;采用自训练的transformer编码器将f0′进行特征提取,得到每个图像块的特征向量和全局特征向量。

10、根据本公开的一方面,可选的,当使用自训练的transformer模型提取与所述单目摄像头相距预设距离以内的人脸的特征向量时,将全局特征作为人脸特征向量保存到人脸特征数据库。可选的,用于人机交互的方法还可以包括使用训练的卷积神经网络模型提取当前的人脸特征向量;计算当前的人脸特征向量与存储的人脸特征向量的相似程度;将计算的相似程度与预设的阈值进行比较来判断当前的人脸是否在之前出现过。

11、本公开的实施例可以进一步通过对人脸进行面部特征的识别来增加交互效果,增强用户体验。通过上述的面部特征识别可以判断该交互对象在之前是否出现过,如果再次出现,虚拟形象可以与交本文档来自技高网...

【技术保护点】

1.一种人机交互方法,其特征在于包括:

2.根据权利要求1所述的人机交互方法,其特征在于还包括:

3.根据权利要求1所述的人机交互方法,其特征在于所述估计一个或多个人的人脸与所述单目摄像头的距离包括根据所述人脸的像素坐标、占据的像素尺寸和人体头部的先验尺寸估计所述人脸与所述单目摄像头的距离,所述人机交互方法还包括根据所述单目摄像头的内参矩阵和一个或多个人的人脸与所述单目摄像头的距离确定所述人脸的空间三维坐标,其由人脸中心点相对于所述单目摄像头的主光轴在横向和纵向偏移的距离以及人脸的中心点与所述单目摄像头的中心的距离来表示。

4.根据权利要求1所述的人机交互方法,其特征在于所述估计一个或多个人的人脸与所述单目摄像头的距离包括使用Depth Vision Transformer模型得到与人脸图像对应的深度图,来估计所述人脸与单目摄像头的距离,所述人机交互方法还包括根据单目摄像头的内参矩阵、一个或多个人的人脸与所述单目摄像头的距离和人脸的像素坐标确定所述人脸的空间三维坐标。

5.根据权利要求1所述的人机交互方法,其特征在于使用自训练的Transformer模型提取与所述单目摄像头相距预设距离以内的人脸图像的特征向量包括:

6.根据权利要求1所述的人机交互方法,其特征在于当使用自训练的Transformer模型提取与所述单目摄像头相距预设距离以内的人脸的特征向量时,将全局特征向量作为人脸特征向量保存到人脸特征数据库。

7.根据权利要求2所述的人机交互方法,其特征在于当检测到交互对象的语音信息时,存储语音信息的声纹特征,并且存储该声纹特征与交互对象的人脸特征向量之间的对应关系。

8.根据权利要求1所述的人机交互方法,其特征在于包括使用通用数据集对卷积神经网络的模型参数进行训练,获得预训练模型,使用自制数据集对训练之后的卷积神经网络的模型参数继续进行训练,获得卷积神经网络模型,所述自制数据集的图像从实际应用场景采集。

9.一种智能AI助手,其特征在于包括用于显示虚拟形象的屏幕;用于采集人的头部和/或人脸信息的摄像头;用于采集人的语音的麦克风;处理器;和存储有一个或者多个计算机程序的存储器,所述一个或者多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,执行如权利要求1-8中任一项所述的人机交互方法。

10.根据权利要求9所述的智能AI助手,其特征在于所述处理器为图像处理器,使用混合精度训练、动态量化或者CUDA/cuDNN加速中的一种或者多种对图像处理器的计算进行优化。

...

【技术特征摘要】

1.一种人机交互方法,其特征在于包括:

2.根据权利要求1所述的人机交互方法,其特征在于还包括:

3.根据权利要求1所述的人机交互方法,其特征在于所述估计一个或多个人的人脸与所述单目摄像头的距离包括根据所述人脸的像素坐标、占据的像素尺寸和人体头部的先验尺寸估计所述人脸与所述单目摄像头的距离,所述人机交互方法还包括根据所述单目摄像头的内参矩阵和一个或多个人的人脸与所述单目摄像头的距离确定所述人脸的空间三维坐标,其由人脸中心点相对于所述单目摄像头的主光轴在横向和纵向偏移的距离以及人脸的中心点与所述单目摄像头的中心的距离来表示。

4.根据权利要求1所述的人机交互方法,其特征在于所述估计一个或多个人的人脸与所述单目摄像头的距离包括使用depth vision transformer模型得到与人脸图像对应的深度图,来估计所述人脸与单目摄像头的距离,所述人机交互方法还包括根据单目摄像头的内参矩阵、一个或多个人的人脸与所述单目摄像头的距离和人脸的像素坐标确定所述人脸的空间三维坐标。

5.根据权利要求1所述的人机交互方法,其特征在于使用自训练的transformer模型提取与所述单目摄像头相距预设距离以内的人脸图像的特征向量包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:李旭东张玥
申请(专利权)人:北京奥丁信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1