当前位置: 首页 > 专利查询>之江实验室专利>正文

一种无唤醒机器人判断动作执行人是否为机器人的方法技术

技术编号:30966306 阅读:59 留言:0更新日期:2021-11-25 20:37
本发明专利技术涉及人工智能机器人领域,具体涉及一种无唤醒机器人判断动作执行人是否为机器人的方法,包括以下步骤:步骤1,无唤醒机器人通过视觉模块和语音模块采集视觉信息和语音声源信息,视觉信息包括人物信息和微动作信息,语音声源信息包括声源定位信息和语义理解信息;步骤2,根据声源定位信息,判断出语音说话人;步骤3,在确定语音说话人后,判断语音说话人的脸部朝向;步骤4,根据语义理解源信息,提取动作执行人及意图,同时结合说话人的脸部朝向,识别微动作信息,判断说话人语音中的动作执行人是否为机器人。本发明专利技术基于视觉、声源定位角度和语义理解信息,可有效判断动作执行人是否为机器人,从而进行响应回复。从而进行响应回复。从而进行响应回复。

【技术实现步骤摘要】
一种无唤醒机器人判断动作执行人是否为机器人的方法


[0001]本专利技术涉及人工智能机器人领域,具体涉及一种无唤醒机器人判断动作执行人是否为机器人的方法。

技术介绍

[0002]服务型机器人主要用于和用户进行沟通交流,然后实现特定功能。在一般情况下,语音输入唤醒词,如你好XX等现实生活中使用频率较低的词语,来唤醒机器人后,用户才能与机器人对话,但每次语音输入唤醒词不贴合现实生活以及使用较繁琐,因此无唤醒机器人相较有唤醒机器人显得更智能化。但无唤醒机器人在语音对话过程中无法判断用户是与机器人交流还是和身边人交流,因此无法给出响应的回复。

技术实现思路

[0003]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种无唤醒机器人判断动作执行人是否为机器人的方法,结合视觉、声源角度等信息,判断用户语音输入对话后,动作执行人是否为机器人,其具体技术方案如下:
[0004]一种无唤醒机器人判断动作执行人是否为机器人的方法,包括以下步骤:
[0005]步骤1,无唤醒机器人通过视觉模块和语音模块采集图像识别人物信息和用户语音输入信息,即视觉信息和语音声源信息,视觉信息包括人物信息和微动作信息,语音声源信息包括声源定位信息和语义理解信息;
[0006]步骤2,根据声源定位信息,判断出语音说话人;
[0007]步骤3,在确定语音说话人后,判断语音说话人的脸部朝向;
[0008]步骤4,根据语义理解源信息,提取动作执行人及意图,同时结合说话人的脸部朝向,识别微动作信息,判断说话人语音中的动作执行人是否为机器人。
[0009]进一步的,所述步骤1,具体包括:
[0010]步骤1.1,构建坐标系:机器人身高heightR,以机器人所在位置的地面为原点,机器人水平方向分别有x轴和y轴,机器人右向为x轴正方向,机器人正前方为y轴正方向,机器人垂直方向为z轴,上方为z轴正方向;
[0011]步骤1.2,通过机器人视觉模块获取人物水平位置状态信息和身高,构建表示人物信息的集合S;
[0012]步骤1.3,构建机器人专属意图集合Y={专属意图1,专属意图2,专属意图3,

,专属意图N};
[0013]步骤1.4,构建提示对方要与其对话的微动作集合X={微动作1,微动作2,微动作3,

,微动作M},机器人视觉模块在用户语音输入过程中识别微动作,并明确该微动作的被执行人;
[0014]步骤1.5,机器人语音模块根据采集的语音声源信息,进行声源定位和语音语义理解。
[0015]进一步的,所述步骤1.2,具体为:机器人通过其视觉模块采集周边人物身高height,水平位置状态信息x,y,分别表示人物的水平位置x轴正方向坐标和y轴正方向坐标,脸部朝向向量(faceX,faceY,faceZ),以及信息id,id是周边人物的唯一标志,且同一人物,id不变且为正数;则构建人物信息集合为S={id,x,y,height,faceX,faceY,faceZ};所述机器人采集视觉信息的时间频率为f,即一秒时间内生成的信息数量,语音输入开始至语音输入结束持续时间为t秒,在t秒内生成的信息总量为集合E={S1,S2,S3,

,S
tf
},在集合E中共有tf个人物信息集合S。
[0016]进一步的,所述声源定位即获取开始说话时声源输入水平角度θ,0<=θ<2π,如人物在机器人正右方,θ=0;如人物在机器人右前方,如人物在机器人正前方,如人物在机器人左前方,如人物在机器人正左方,θ=π;如人物在机器人左后方,如人物在机器人正后方,如人物在机器人右后方,
[0017]所述语音语义理解即提取出相关动作执行人及其意图。
[0018]进一步的,所述步骤2,具体包括:
[0019]步骤2.1,当语音模块检测到有人开始说话,语音模块下发开始说话时声源输入水平角度θ;
[0020]步骤2.2,构建初始以原点为起点,指向x轴正方向,再逆时针水平旋转θ角度的单位向量具体为:
[0021]当θ=0时,
[0022]当时,
[0023]当时,
[0024]当时,
[0025]当θ=π时,
[0026]当时,
[0027]当时,
[0028]当时,
[0029]步骤2.3,提取开始说话时周边每个人物的信息集合S={id,x,y,height,faceX,faceY,faceZ},构建起点为原点,即机器人所在位置为原点,周边人物所在位置为终点的向量计算周边每个人物所对应的与之间的夹角:
[0030][0031]计算周边每个人物所对应的夹角α,并选取α的最小值,即min(α)所对应的人物id为开口说话的人物id,同时记录该id。
[0032]进一步的,所述步骤3,具体包括:
[0033]步骤3.1,提取从开始说话至说话结束时间段内,机器人周边所有人物的集合E,设机器人周边拥有P个人物,设说话的人物所对应的集合为E1,其余人物所对应的集合分别为E2,E3,

,E
P
,同时建立集合E的下标与所对应人物的id一对一映射表Q,即不同集合E的下标对应不同id,不同id对应不同集合E的下标;设集合E
i
中共有N个元素,采集频率相同,周边每个人物所对应的集合E中均有N个元素,第一个元素为S
i1
,第二个元素为S
i2


,第k个元素为S
ik


,第N个元素为S
iN
,设S
ik
中人物所在位置的x轴坐标为x
ik
,y轴坐标为y
ik
,人物身高为height
ik
,脸部朝向向量为则说话人物脸部朝向向量为
[0034]步骤3.2,设以集合E
i
所对应人物所在位置为起点,以集合E
j
所对应周边人物所在位置为终点的向量为则以说话人物所在位置为起点,以集合E
j
所对应周边人物所在位置为终点的向量为
[0035]步骤3.3,设以集合E
i
所对应人物所在位置为起点,以机器人所在位置为终点的向量为则以说话人物所在位置为起点,以机器人所在位置为终点的向量为
[0036]步骤3.4,计算第k个时刻向量与向量之间的夹角a
jk
以及向量与向量之间的夹角b
k
,k=1,2,

,N,表达式为:
[0037][0038][0039][0040][0041]得到第k个时刻a
jk
的最小值,j=2,3,

,P,并将a
jk
的最小值与b
k
比较大小,即min(b
k...

【技术保护点】

【技术特征摘要】
1.一种无唤醒机器人判断动作执行人是否为机器人的方法,其特征在于,包括以下步骤:步骤1,无唤醒机器人通过视觉模块和语音模块采集图像识别人物信息和用户语音输入信息,即视觉信息和语音声源信息,视觉信息包括人物信息和微动作信息,语音声源信息包括声源定位信息和语义理解信息;步骤2,根据声源定位信息,判断出语音说话人;步骤3,在确定语音说话人后,判断语音说话人的脸部朝向;步骤4,根据语义理解源信息,提取动作执行人及意图,同时结合说话人的脸部朝向,识别微动作信息,判断说话人语音中的动作执行人是否为机器人。2.如权利要求1所述的一种无唤醒机器人判断动作执行人是否为机器人的方法,其特征在于,所述步骤1,具体包括:步骤1.1,构建坐标系:机器人身高heightR,以机器人所在位置的地面为原点,机器人水平方向分别有x轴和y轴,机器人右向为x轴正方向,机器人正前方为y轴正方向,机器人垂直方向为z轴,上方为z轴正方向;步骤1.2,通过机器人视觉模块获取人物水平位置状态信息和身高,构建表示人物信息的集合S;步骤1.3,构建机器人专属意图集合Y={专属意图1,专属意图2,专属意图3,

,专属意图N};步骤1.4,构建提示对方要与其对话的微动作集合X={微动作1,微动作2,微动作3,

,微动作M},机器人视觉模块在用户语音输入过程中识别微动作,并明确该微动作的被执行人;步骤1.5,机器人语音模块根据采集的语音声源信息,进行声源定位和语音语义理解。3.如权利要求2所述的一种无唤醒机器人判断动作执行人是否为机器人的方法,其特征在于,所述步骤1.2,具体为:机器人通过其视觉模块采集周边人物身高height,水平位置状态信息x,y,分别表示人物的水平位置x轴正方向坐标和y轴正方向坐标,脸部朝向向量(faceX,faceY,faceZ),以及信息id,id是周边人物的唯一标志,且同一人物,id不变且为正数;则构建人物信息集合为S={id,x,y,height,faceX,faceY,faceZ};所述机器人采集视觉信息的时间频率为f,即一秒时间内生成的信息数量,语音输入开始至语音输入结束持续时间为t秒,在t秒内生成的信息总量为集合E={S1,S2,S3,

,S
tf
},在集合E中共有tf个人物信息集合S。4.如权利要求2所述的一种无唤醒机器人判断动作执行人是否为机器人的方法,其特征在于,所述声源定位即获取开始说话时声源输入水平角度θ,0<=θ<2π,如人物在机器人正右方,θ=0;如人物在机器人右前方,如人物在机器人正前方,如人物在机器人左前方,如人物在机器人正左方,θ=π;如人物在机器人左后方,如人物在机器人正后方,如人物在机器人右后方,所述语音语义理解即提取出相关动作执行人及其意图。5.如权利要求1所述的一种无唤醒机器人判断动作执行人是否为机器人的方法,其特
征在于,所述步骤2,具体包括:步骤2.1,当语音模块检测到有人开始说话,语音模块下发开始说话时声源输入水平角度θ;步骤2.2,构建初始以原点为起点,指向x轴正方向,再逆时针水平旋转θ角度的单位向量具体为:当θ=0时,当时,当时,当时,当θ=π时,当时,当时,当时,步骤2.3,提取开始说话时周边每个人物的信息集合S={id,x,y,height,faceX,faceY,faceZ},构建起点为原点,即机器人所在位置为原点,周边人物所在位置为终点的向量计算周边每个人物所对应的与之间的夹角:计算周边每个人物所对应的夹角α,并选取α的最小值,即min(α)所对应的人物id为开口说话的人物id,同时记录该id。6.如权利要求1所述的一种无唤醒机器人判断动作执行人是否为机器人的方法,其特征在于,所述步骤3,具体包括:步骤3.1,提取从开始说话至说话结束时间段内,机器人周边所有人物的集合E,设机器人周边拥有P个人物,设说话的人物所对应的集合为E1,其余人物所对应的集合分别为E2,E3,

,E
P
,同时建立集合E的下标与所对应人物的id一对一映射表Q,即不同集合E的下标对应不同id,不同id对应不同集合E的下标;设集合E
i
中共有N个元素,采集频率相同,周边每个人物所对应的集合E中均有N个元素,第一个元素为S

【专利技术属性】
技术研发人员:方伟宋伟王亚鸽朱世强张鸿轩周元海
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1