一种实现网联系统多模交互的方法及系统技术方案

技术编号：39712816 阅读：13 留言：0更新日期：2023-12-17 23:21

本发明专利技术公开了一种网联系统多模交互方法及系统，包括：基于信息接收模块，创建视觉识别输入通道；通过使用本机处理模块与云端处理模块相结合的处理方式，由云端信息处理模块结合数据进行多模语义理解和场景冲突判断，满足不同情况下的交互需求

全部详细技术资料下载

【技术实现步骤摘要】
一种实现网联系统多模交互的方法及系统

[0001]本专利技术涉及网联交互
，尤其涉及一种实现网联系统多模交互的方法及系统
。

技术介绍

[0002]近年来，计算机设备不只依赖命令行
、
图形界面进行人机交互，可以用更自然
、
更隐形的方式与用户交互，这样的用户界面称为“自然用户界面”(Natural User Interface
，
NUI)
，人类可以通过多模态的交互方式直观地更计算机进行交互
。
所谓“模态”(modality)
，即“感官”，人类拥有视觉
、
听觉
、
触觉和味觉模态，多模态交互能使人通过声音
、
肢体语言
、
信息载体
(
文字
、
图片
、
视频
、
音频
)、
环境等多个通道与计算机进行交流
、
充分模拟人与人之间的交互方式
。
[0003]当前网联系统的交互方案主要有两种：
[0004]一是单一语音交互，该方案功能单一，无法提供更为智能的体验，且不同场景下唤醒率有差异，影响体验
。
[0005]一种是独立硬件处理的语音与视觉融合模态方案，该方案较上述方案功能更加丰富，性能强大，需要通过独立硬件增加系统算力处理多模融合，成本更高，需要提前做硬件设计预留，无法直接在现有网联系统硬件基础上升级
。...

【技术保护点】

【技术特征摘要】
1.
一种实现网联系统多模交互的方法，其特征在于，包括：基于信息接收模块，创建视觉识别输入通道；通过使用本机处理模块与云端处理模块相结合的处理方式，由云端信息处理模块结合数据进行多模语义理解和场景冲突判断，满足不同情况下的交互需求
。2.
如权利要求1所述的实现网联系统多模交互的方法，其特征在于，还包括以下步骤：视频数据通过摄像头采集
、
解码芯片处理后传入到
SOC
芯片，音频数据通过麦克风采集
、
数据信号处理器芯片处理后传入给
SOC
芯片；网联系统软件中的
SDK
将音频数据和视频数据的融合匹配，对音频数据和视频数据进行语音识别和人脸识别；将
SDK
与云端相连接，将识别数据传给云端，由云端结合数据进行场景判断，确定目标人的行为；识别完后将判断结果返回给
SDK
，根据确定结果，调用语音应用的车辆控制接口和应用控制接口来进行语音播报和网联系统的应用控制
。3.
如权利要求1或2所述的实现网联系统多模交互的方法，其特征在于：所述本地信息处理模块由
SOC
芯片处理，接收视频模块和音频模块发送的信息，通过语音算法和视觉算法进行信息分析，将信息通过互联网发送到云端协同处理，接收云端处理完毕的信息与自身处理信息进行整合，将对应的操作指令传递给应用软件，实现对车辆和车机软件的控制
。4.
如权利要求3所述的实现网联系统多模交互的方法，其特征在于：所述云端处理模块由云端服务器组成，云端处理模块模块接收本地信息处理模块发送的多模信息，进行多模语义理解和场景判断处理，将判断结果反馈给本地信息处理模块
。5.
如权利要求4所述的实现网联系统多模交互的方法，其特征在于：所述
SOC
芯片负责接收摄像头解码芯片传输的视频信号和数字信号处理器处理后的音频信号进行识别，与云端进行信息交互，通过语音指令识别和人脸面部动作识别对车控功能进行控制
。6.
如权利...

【专利技术属性】
技术研发人员：彭杨，陶文柯，韦恺，陆杰，冼维东，
申请(专利权)人：上汽通用五菱汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人