一种实现网联系统多模交互的方法及系统技术方案

技术编号:39712816 阅读:13 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种网联系统多模交互方法及系统,包括:基于信息接收模块,创建视觉识别输入通道;通过使用本机处理模块与云端处理模块相结合的处理方式,由云端信息处理模块结合数据进行多模语义理解和场景冲突判断,满足不同情况下的交互需求

【技术实现步骤摘要】
一种实现网联系统多模交互的方法及系统


[0001]本专利技术涉及网联交互
,尤其涉及一种实现网联系统多模交互的方法及系统


技术介绍

[0002]近年来,计算机设备不只依赖命令行

图形界面进行人机交互,可以用更自然

更隐形的方式与用户交互,这样的用户界面称为“自然用户界面”(Natural User Interface

NUI)
,人类可以通过多模态的交互方式直观地更计算机进行交互

所谓“模态”(modality)
,即“感官”,人类拥有视觉

听觉

触觉和味觉模态,多模态交互能使人通过声音

肢体语言

信息载体
(
文字

图片

视频

音频
)、
环境等多个通道与计算机进行交流

充分模拟人与人之间的交互方式

[0003]当前网联系统的交互方案主要有两种:
[0004]一是单一语音交互,该方案功能单一,无法提供更为智能的体验,且不同场景下唤醒率有差异,影响体验

[0005]一种是独立硬件处理的语音与视觉融合模态方案,该方案较上述方案功能更加丰富,性能强大,需要通过独立硬件增加系统算力处理多模融合,成本更高,需要提前做硬件设计预留,无法直接在现有网联系统硬件基础上升级


技术实现思路

[0006]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例

在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分

说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围

[0007]鉴于上述现有存在的问题,提出了本专利技术

[0008]因此,本专利技术提供了一种实现网联系统多模交互的方法及系统解决现有摄像头接入链路对外部硬件的依赖较重的问题

[0009]为解决上述技术问题,本专利技术提供如下技术方案:
[0010]第一方面,本专利技术提供了一种实现网联系统多模交互方法,包括:
[0011]基于信息接收模块,创建视觉识别输入通道;
[0012]通过使用本机处理模块与云端处理模块相结合的处理方式,由云端信息处理模块结合数据进行多模语义理解和场景冲突判断,满足不同情况下的交互需求

[0013]作为本专利技术所述的实现网联系统多模交互的方法的一种优选方案,其中:
[0014]还包括以下步骤:
[0015]视频数据通过摄像头采集

解码芯片处理后传入到
SOC
芯片,音频数据通过麦克风采集

数据信号处理器芯片处理后传入给
SOC
芯片;
[0016]网联系统软件中的
SDK
将音频数据和视频数据的融合匹配,对音频数据和视频数据进行语音识别和人脸识别;
[0017]将
SDK
与云端相连接,将识别数据传给云端,由云端结合数据进行场景判断,确定目标人的行为;
[0018]识别完后将判断结果返回给
SDK
,根据确定结果,调用语音应用的车辆控制接口和应用控制接口来进行语音播报和网联系统的应用控制

[0019]作为本专利技术所述的实现网联系统多模交互的方法的一种优选方案,其中:
[0020]所述本地信息处理模块由系统级芯片处理,接收视频模块和音频模块发送的信息,通过语音算法和视觉算法进行信息分析,将信息通过互联网发送到云端协同处理,接收云端处理完毕的信息与自身处理信息进行整合,将对应的操作指令传递给应用软件,实现对车辆和车机软件的控制

[0021]作为本专利技术所述的实现网联系统多模交互的方法的一种优选方案,其中:
[0022]所述云端处理模块由云端服务器组成,云端处理模块模块接收本地信息处理模块发送的多模信息,进行多模语义理解和场景判断处理,将判断结果反馈给本地信息处理模块

[0023]作为本专利技术所述的实现网联系统多模交互的方法的一种优选方案,其中:
[0024]所述系统级芯片负责接收摄像头解码芯片传输的视频信号和数字信号处理器处理后的音频信号进行识别,与云端进行信息交互,通过语音指令识别和人脸面部动作识别对车控功能进行控制

[0025]作为本专利技术所述的实现网联系统多模交互的方法的一种优选方案,其中:
[0026]所述云端基于处理的数据量采用
80
%本机和
20
%云端的算法处理模式进行处理

[0027]作为本专利技术所述的实现网联系统多模交互的方法的一种优选方案,其中:
[0028]所述多模语义理解,即根据视频识别数据和音频数据的结果进行时间对齐,对齐时间后进行语义理解,包括两种模式,即全时免唤醒模式和行为监测模式;
[0029]若信息接收模块接收到用户人眼数据在
1s
以上则触发全时免唤醒模式,同时对用户的唇部特征进行识别,若判断为唇部未发生动作,则本次指令判定为无效指令,唤醒终止;
[0030]若信息接收模块接收到用户人眼数据在
1s
以上则触发全时免唤醒模式,同时对用户的唇部特征进行识别,若判断为唇部发生动作,则接收语音指令进行识别,执行一次输出语音播报和屏幕显示操作,则本次指令记录为一次有效指令;
[0031]若信息接收模块接收到用户拿起手机靠近耳朵持续
2s
以上则触发行为监测模式,执行持续输出语音播报和屏幕显示操作,则本次指令记录为一次有效指令;
[0032]若信息接收模块接收到用户拿起手机靠近耳朵的动作消失,则终止语音播报和屏幕显示操作;
[0033]所述场景冲突判断,即将全时免唤醒模式设为第一优先级,将行为监测模式设为第二优先级,当全时免唤醒模式和行为监测模式同时被触发时,优先执行第一优先级,当第一优先级执行完毕后,开启第二优先级的执行

[0034]第二方面,本专利技术提供了一种网联系统多模交互系统,包括:创建模块,基于信息接收模块,创建视觉识别输入通道;
[0035]结合模块,通过使用本机处理模块与云端处理模块相结合的处理方式,由云端信息处理模块结合数据进行多模语义理解和场景冲突判断,满足不同情况下的交互需求

[0036]第三方面,本专利技术提供了一种计算设备,包括:
[0037]存储器,用于存储程序;
[0038]处理器,用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述网联系统多模交互方法的步骤

[0039]第四方面,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种实现网联系统多模交互的方法,其特征在于,包括:基于信息接收模块,创建视觉识别输入通道;通过使用本机处理模块与云端处理模块相结合的处理方式,由云端信息处理模块结合数据进行多模语义理解和场景冲突判断,满足不同情况下的交互需求
。2.
如权利要求1所述的实现网联系统多模交互的方法,其特征在于,还包括以下步骤:视频数据通过摄像头采集

解码芯片处理后传入到
SOC
芯片,音频数据通过麦克风采集

数据信号处理器芯片处理后传入给
SOC
芯片;网联系统软件中的
SDK
将音频数据和视频数据的融合匹配,对音频数据和视频数据进行语音识别和人脸识别;将
SDK
与云端相连接,将识别数据传给云端,由云端结合数据进行场景判断,确定目标人的行为;识别完后将判断结果返回给
SDK
,根据确定结果,调用语音应用的车辆控制接口和应用控制接口来进行语音播报和网联系统的应用控制
。3.
如权利要求1或2所述的实现网联系统多模交互的方法,其特征在于:所述本地信息处理模块由
SOC
芯片处理,接收视频模块和音频模块发送的信息,通过语音算法和视觉算法进行信息分析,将信息通过互联网发送到云端协同处理,接收云端处理完毕的信息与自身处理信息进行整合,将对应的操作指令传递给应用软件,实现对车辆和车机软件的控制
。4.
如权利要求3所述的实现网联系统多模交互的方法,其特征在于:所述云端处理模块由云端服务器组成,云端处理模块模块接收本地信息处理模块发送的多模信息,进行多模语义理解和场景判断处理,将判断结果反馈给本地信息处理模块
。5.
如权利要求4所述的实现网联系统多模交互的方法,其特征在于:所述
SOC
芯片负责接收摄像头解码芯片传输的视频信号和数字信号处理器处理后的音频信号进行识别,与云端进行信息交互,通过语音指令识别和人脸面部动作识别对车控功能进行控制
。6.
如权利...

【专利技术属性】
技术研发人员:彭杨陶文柯韦恺陆杰冼维东
申请(专利权)人:上汽通用五菱汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1