基于人工智能的声控管理系统技术方案

技术编号:37394690 阅读:15 留言:0更新日期:2023-04-27 07:31
本发明专利技术提出了一种基于人工智能的声控管理系统,涉及智能交互领域。该系统包括:指令接收模块,用于接收控制指令语音,利用声源定位方法确定发出所述控制指令语音的声源位置在预置坐标系中的空间位置信息;视频获取模块,用于基于空间位置信息利用预设视频获取装置获取包括用户的视频信息;指令生成模块,用于基于视频信息获取用户的眼动参数,基于眼动参数建立预设唤醒机制并生成对应的唤醒指令;指令执行模块,用于执行所述唤醒指令,唤醒对应的目标设备。该系统通过结合用户的眼动参数进行辅助唤醒目标设备,可以有效地提高选择出的响应于控制指令语音的目标设备的正确率,从而提高用户的使用体验。提高用户的使用体验。提高用户的使用体验。

【技术实现步骤摘要】
基于人工智能的声控管理系统


[0001]本专利技术涉及智能交互领域,具体而言,涉及一种基于人工智能的声控管理系统。

技术介绍

[0002]随着智能化的高速发展,越来越多的目标设备已经具备了与用户进行语音交互的功能,其能够响应于控制指令语音并执行与其匹配的功能,从而允许用户借助语音与目标设备进行人机交互。然而,同一个品牌的目标设备通常能够响应于相同的控制指令语音,这导致在用户呼出控制指令语音后很有可能导致多个目标设备响应于该控制指令语音并各自执行与其匹配的功能,因而降低了用户体验。
[0003]为了解决上述问题,现有技术中要么是控制目标设备测试其与控制指令语音的声源之间的距离,并获取其他设备与控制指令语音的声源之间的距离,然后选择距离音源位置最近的目标设备来对控制指令语音进行响应。要么是选择目标设备的朝向与用户的声源方向之间的夹角度最小的目标设备进行响应,从而提高选择出的响应于控制指令语音的目标设备的正确率。然而不管这两种的哪一种声控管理方法,虽然都能够确保只有一个目标设备响应于控制指令语音,但是选择出的目标用户往往并不是用户所希望进行人机交互的目标设备,只能再次进行选择,大大降低了用户体验。

技术实现思路

[0004]本专利技术的目的在于提供一种基于人工智能的声控管理系统,其结合用户的眼动参数进行辅助唤醒目标设备,可以有效地提高选择出的响应于控制指令语音的目标设备的正确率,从而提高用户的使用体验。
[0005]本专利技术的实施例是这样实现的:
[0006]本申请实施例提供一种基于人工智能的声控管理系统,包括:
[0007]指令接收模块,用于接收控制指令语音,利用声源定位方法确定发出上述控制指令语音的声源位置在预置坐标系中的空间位置信息;视频获取模块,用于基于空间位置信息利用预设视频获取装置获取包括用户的视频信息;指令生成模块,用于基于视频信息获取用户的眼动参数,基于眼动参数建立预设唤醒机制并生成对应的唤醒指令;指令执行模块,用于执行上述唤醒指令,唤醒对应的目标设备。
[0008]在本专利技术的一些实施例中,上述指令生成模块包括第一边缘检测子模块、第二边缘检测子模块、第三边缘检测子模块、瞳孔数据获取子模块和眼动参数获取子模块;第一边缘检测子模块,用于逐帧对视频信息进行第一次边缘检测,得到用户所处区域信息;第二边缘检测子模块,用于对用户所处区域信息进行第二次边缘检测,得到人脸区域信息;第三边缘检测子模块,用于对人脸区域信息进行第三次边缘检测,得到眼边缘信息;瞳孔数据获取子模块,用于根据眼边缘信息进行眼椭圆拟合处理,并基于眼椭圆拟合处理获取瞳孔数据;眼动参数获取子模块,用于基于瞳孔数据得到眼动参数。
[0009]在本专利技术的一些实施例中,上述第三边缘检测子模块进一步用于对人脸区域信息
进行第三次边缘检测后进行2值化处理,得到眼边缘信息。
[0010]在本专利技术的一些实施例中,上述瞳孔数据获取子模块包括灰度化子模块、图像分割子模块、质心获取子模块和质心转换子模块;灰度化子模块,用于将眼椭圆拟合处理得到的图像信息灰度化处理,得到灰度化图像;图像分割子模块,用于将灰度化图像的直方图进行波谷检测,得到阈值分割的分割图像;质心获取子模块,用于计算分割图像的质心,并在质心的预置范围内检测上下边界信息,在检测得到的上下边界中再次检测质心,得到最终的质心信息;质心转换子模块,用于根据质心信息得到瞳孔数据。
[0011]在本专利技术的一些实施例中,上述第二边缘检测子模块进一步用于利用超分辨重建技术对人脸区域信息进行超分辨率重建。
[0012]在本专利技术的一些实施例中,上述指令生成模块包括眼动参数转换子模块和唤醒机制子模块;眼动参数转换子模块,用于将眼动参数与目标设备的位置信息进行对应,得到用户视线在目标设备的视线落点、视线轨迹和视线停留时长数据,用以生成轨迹图或热区图;唤醒机制子模块,用于根据轨迹图与预定触发轨迹图的对比关系,或热区图预定触发热区图的对比关系,建立预设唤醒机制并生成对应的唤醒指令。
[0013]在本专利技术的一些实施例中,上述空间位置信息包括声源初始位置和间隔预设时间获取的声源移动位置。
[0014]相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:
[0015]本专利技术的实施例提出了一种基于人工智能的声控管理系统,其利用声源定位方法确定发出控制指令语音的声源位置在预置坐标系中的空间位置信息后,将可以基于空间位置信息利用预设视频获取装置获取包括用户的视频信息,接着就可以从视频信息中提取获取用户的眼动参数,并基于眼动参数建立预设唤醒机制并生成对应的唤醒指令,最后就可以进行执行唤醒指令,进行唤醒对应的目标设备。从而其通过结合用户的眼动参数进行辅助唤醒目标设备,可以有效地提高选择出的相应于控制指令语音的目标设备的正确率,用以提高用户的使用体验。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0017]图1为本专利技术一实施例中用户与目标设备的空间位置示意图;
[0018]图2为本专利技术另一实施例中用户与目标设备的空间位置示意图;
[0019]图3为本专利技术一种基于人工智能的声控管理系统一实施例的结构框图;
[0020]图4为本专利技术一种基于人工智能的声控管理系统又一实施例的结构框图;
[0021]图5为本专利技术一种基于人工智能的声控管理系统另一实施例的结构框图。
[0022]图标:1、指令接收模块;2、视频获取模块;3、指令生成模块;4、指令执行模块。
具体实施方式
[0023]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例
中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0024]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
[0025]实施例1
[0026]在多个目标设备均响应与同一控制指令语音进行唤醒时(在具有多个同一品牌的目标设备时极其容易发生此现象),将可能导致多个目标设备响应于该控制指令语音并各自执行与其匹配的功能,从而将严重影响用户的使用体验。为了解决上述问题,在现有技术中,可以通过获取用户发出的控制指令语音与多个目标设备的距离,进行判断出用户更加靠近哪个目标设备,从而可以选择距离用户最近的目标设备进行控制目标设备响应。如图1所示,其中S1为用户距离目标设备1的距离,S2为用户距离目标设备2的距离,则在S1<S2时,可以选择目标设备1进行响应,从而用以选择出一个目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的声控管理系统,其特征在于,包括:指令接收模块,用于接收控制指令语音,利用声源定位方法确定发出所述控制指令语音的声源位置在预置坐标系中的空间位置信息;视频获取模块,用于基于空间位置信息利用预设视频获取装置获取包括用户的视频信息;指令生成模块,用于基于视频信息获取用户的眼动参数,基于眼动参数建立预设唤醒机制并生成对应的唤醒指令;指令执行模块,用于执行所述唤醒指令,唤醒对应的目标设备。2.如权利要求1所述的基于人工智能的声控管理系统,其特征在于,所述指令生成模块包括第一边缘检测子模块、第二边缘检测子模块、第三边缘检测子模块、瞳孔数据获取子模块和眼动参数获取子模块;第一边缘检测子模块,用于逐帧对视频信息进行第一次边缘检测,得到用户所处区域信息;第二边缘检测子模块,用于对用户所处区域信息进行第二次边缘检测,得到人脸区域信息;第三边缘检测子模块,用于对人脸区域信息进行第三次边缘检测,得到眼边缘信息;瞳孔数据获取子模块,用于根据眼边缘信息进行眼椭圆拟合处理,并基于眼椭圆拟合处理获取瞳孔数据;眼动参数获取子模块,用于基于瞳孔数据得到眼动参数。3.如权利要求2所述的基于人工智能的声控管理系统,其特征在于,所述第三边缘检测子模块进一步用于对人脸区域信息进行第三次边缘检测后进行2值化处理,得到眼边缘信息。4.如权利要求2所述的基于人工...

【专利技术属性】
技术研发人员:谢陈江谢钢谢世淼
申请(专利权)人:上海思寒环保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1