交互权切换方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36823268 阅读:17 留言:0更新日期:2023-03-12 01:10
本发明专利技术提供一种交互权切换方法、装置、电子设备和存储介质,其中方法包括:确定交互场景下的视频数据,以及视频数据指示的初始交互人员;基于视频数据,确定交互场景下的各个人员的唇部数据;在检测到唤醒词的情况下,基于唤醒词对应的语音数据,以及各个人员的唇部数据,确定输出唤醒词的潜在交互人员,在潜在交互人员和初始交互人员为不同人员的情况下,基于潜在交互人员的身份标号,对初始交互人员进行交互权切换,实现了多人场景下的交互权切换,克服了传统方案中多人交互时,交互权难以转换的缺陷,能够对各个人员进行稳定追踪,实现了潜在交互人员的精准定位,以及交互权的稳步切换。步切换。步切换。

【技术实现步骤摘要】
交互权切换方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音交互
,尤其涉及一种交互权切换方法、装置、电子设备和存储介质。

技术介绍

[0002]随着语音识别技术的发展,其所应用的场景越来越复杂,从最初安静场景下的普通话识别,至如今高噪声复杂场景下携带口音、小语种、方言等识别,其面临的挑战越来越大,环境越来越恶劣。
[0003]目前,多采用多模态技术去解决高噪声场景下的识别问题,其使用音视频信息作为输入,通过音视频的融合提升语音识别的准确率,但是,当前的多模态技术多用于单人场景,如汽车主驾驶人、医院自助交互终端等,其在单人场景中应用广泛;然而,对于开放式的多人场景,如指挥调度大屏,公共场景下的交互大屏等,此种情况下交互对象往往不止一个,此时单人场景的多模态技术无法针对不同交互对象进行角色定位,以及据其交互意愿进行交互权切换。

技术实现思路

[0004]本专利技术提供一种交互权切换方法、装置、电子设备和存储介质,用以解决现有技术中多人交互时,交互权难以转换的缺陷,实现了各个人员的稳定追踪、潜在交互人员的精准定位以及交互权的稳步切换。
[0005]本专利技术提供一种交互权切换方法,包括:
[0006]确定交互场景下的视频数据,以及所述视频数据指示的初始交互人员;
[0007]基于所述视频数据,确定所述交互场景下的各个人员的唇部数据;
[0008]在检测到唤醒词的情况下,基于所述唤醒词对应的语音数据,以及所述各个人员的唇部数据,确定输出所述唤醒词的潜在交互人员;
[0009]在所述潜在交互人员和所述初始交互人员为不同人员的情况下,基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换。
[0010]根据本专利技术提供的一种交互权切换方法,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:
[0011]基于所述视频数据,确定所述潜在交互人员的图像交互意图,所述图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种;
[0012]和/或,基于所述交互场景下的交互语音,确定所述潜在交互人员的语音交互意图;
[0013]基于所述图像交互意图和/或所述语音交互意图,进行交互。
[0014]根据本专利技术提供的一种交互权切换方法,所述基于所述交互场景下的交互语音,确定所述潜在交互人员的语音交互意图,包括:
[0015]基于所述潜在交互人员的唇部数据,对所述交互语音进行语音分离和/或语音端
点检测,得到所述潜在交互人员的有效语音;
[0016]基于所述潜在交互人员的唇部数据,对所述有效语音进行语音识别,并基于语音识别所得的识别文本进行意图识别,得到所述潜在交互人员的语音交互意图。
[0017]根据本专利技术提供的一种交互权切换方法,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:
[0018]基于所述交互场景下的交互语音,确定目标交互人员的语音交互意图,所述目标交互人员为处于所述交互场景下,且在所述潜在交互人员之前的预设数量个交互人员;
[0019]基于所述视频数据,确定所述目标交互人员的脸部数据;
[0020]基于所述目标交互人员的脸部数据和语音交互意图,进行交互。
[0021]根据本专利技术提供的一种交互权切换方法,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:
[0022]获取所述潜在交互人员的声源定位结果,以及视觉定位结果;
[0023]基于所述声源定位结果,以及所述视觉定位结果,对所述潜在交互人员进行定向追踪;
[0024]所述声源定位结果基于所述交互场景下的麦克风阵列对所述潜在交互人员进行声源定位得到,所述视觉定位结果基于所述交互场景下的摄像头对所述潜在交互人员进行视觉定位得到。
[0025]根据本专利技术提供的一种交互权切换方法,所述基于所述视频数据,确定所述交互场景下的各个人员的唇部数据,包括:
[0026]基于所述视频数据中的各帧图像进行人体追踪,得到所述交互场景下的各个人员在所述各帧图像中的人体区域;
[0027]对各个人体区域进行人脸检测,得到所述各个人员在所述各帧图像中的人脸区域,并对各个人脸区域进行关键点检测,得到各个人员在各帧图像中的唇部数据。
[0028]根据本专利技术提供的一种交互权切换方法,所述基于所述视频数据中的各帧图像进行人体追踪,得到所述交互场景下的各个人员在所述各帧图像中的人体区域,包括:
[0029]基于所述视频数据中的各帧图像进行人体检测,得到所述各帧图像中的人体区域;
[0030]基于相邻帧图像中各个人体区域的重叠面积,对所述各个人体区域所对应的各个人员进行人体追踪,得到所述交互场景下的各个人员在所述各帧图像中的人体区域。
[0031]本专利技术还提供一种交互权切换装置,包括:
[0032]确定单元,用于确定交互场景下的视频数据,以及所述视频数据指示的初始交互人员;
[0033]人脸检测单元,用于基于所述视频数据,确定所述交互场景下的各个人员的唇部数据;
[0034]唇音检测单元,用于在检测到唤醒词的情况下,基于所述唤醒词对应的语音数据,以及所述各个人员的唇部数据,确定输出所述唤醒词的潜在交互人员;
[0035]交互权切换单元,用于在所述潜在交互人员和所述初始交互人员为不同人员的情况下,基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的交互权切换方法。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的交互权切换方法。
[0038]本专利技术提供的交互权切换方法、装置、电子设备和存储介质,通过交互场景下的视频数据,对该场景下的各个人员进行人体追踪和人脸检测,并结合各个人员的唇部数据,以及唤醒词对应的语音数据进行唇音一致性检测,得到检测结果,通过检测结果可以精准定位输出唤醒词的潜在交互人员,通过潜在交互人员的身份标号,对初始交互人员进行交互权切换,实现了多人场景下的交互权切换,克服了传统方案中多人交互时,交互权难以转换的缺陷,能够对多人场景下的各个人员进行稳定追踪,实现了潜在交互人员的精准定位,以及交互权的稳步切换。
附图说明
[0039]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本专利技术提供的交互权切换方法的流程示意图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互权切换方法,其特征在于,包括:确定交互场景下的视频数据,以及所述视频数据指示的初始交互人员;基于所述视频数据,确定所述交互场景下的各个人员的唇部数据;在检测到唤醒词的情况下,基于所述唤醒词对应的语音数据,以及所述各个人员的唇部数据,确定输出所述唤醒词的潜在交互人员;在所述潜在交互人员和所述初始交互人员为不同人员的情况下,基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换。2.根据权利要求1所述的交互权切换方法,其特征在于,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:基于所述视频数据,确定所述潜在交互人员的图像交互意图,所述图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种;和/或,基于所述交互场景下的交互语音,确定所述潜在交互人员的语音交互意图;基于所述图像交互意图和/或所述语音交互意图,进行交互。3.根据权利要求2所述的交互权切换方法,其特征在于,所述基于所述交互场景下的交互语音,确定所述潜在交互人员的语音交互意图,包括:基于所述潜在交互人员的唇部数据,对所述交互语音进行语音分离和/或语音端点检测,得到所述潜在交互人员的有效语音;基于所述潜在交互人员的唇部数据,对所述有效语音进行语音识别,并基于语音识别所得的识别文本进行意图识别,得到所述潜在交互人员的语音交互意图。4.根据权利要求1至3中任一项所述的交互权切换方法,其特征在于,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:基于所述交互场景下的交互语音,确定目标交互人员的语音交互意图,所述目标交互人员为处于所述交互场景下,且在所述潜在交互人员之前的预设数量个交互人员;基于所述视频数据,确定所述目标交互人员的脸部数据;基于所述目标交互人员的脸部数据和语音交互意图,进行交互。5.根据权利要求1至3中任一项所述的交互权切换方法,其特征在于,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:获取所述潜在交互人员的声源定位结果,以及视觉定位结果;基于所述声源定位结...

【专利技术属性】
技术研发人员:王庆然万根顺熊世富赵艳军吴如松高建清潘嘉刘聪胡国平刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1