一种车载语音处理方法及车载信息娱乐系统技术方案

技术编号:28843147 阅读:14 留言:0更新日期:2021-06-11 23:42
本申请公开了一种车载语音处理方法及车载信息娱乐系统,该方法包括:获取至少两个用户的实时图像;根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象;根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理,避免了机械地将车内的所有语音数据采用同样的规则进行识别及处理,导致车载信息娱乐系统容易被误唤醒的问题。

【技术实现步骤摘要】
一种车载语音处理方法及车载信息娱乐系统
本申请涉及智能车辆
,尤其涉及一种车载语音处理方法及车载信息娱乐系统。
技术介绍
随着技术的发展进步,越来越多的车辆上安装了车载信息娱乐系统,可进一步提高车辆驾驶及操作的便捷性和趣味性。为了提高车载信息娱乐系统的使用效率、且避免影响车辆驾驶安全,越来越多的车辆的车载信息娱乐系统上集成了语音识别功能,使得驾驶者可以直接通过语音操作车载信息娱乐系统,提高了使用过程的安全性。现有技术中,通常采用使用机器学习模型对实时采集的车内语音数据进行识别及分析,确定车内语音数据中是否提及了预设的关键词,在确定提及后根据提及的关键词对用户进行相应的反馈。然而,用户互相聊天时可能会涉及这些预设关键词,但用户本意并不是唤醒车载信息娱乐系统。这就会导致车载信息娱乐系统被误唤醒,对用户的使用造成影响。因此,亟需一种可识别用户真实对话意图的车载语音处理方法,以解决现有技术的上述技术问题。
技术实现思路
为了解决现有技术存在的问题,本申请的主要目的在于提供一种语音处理方法及车载信息娱乐系统,以期解决现有技术的上述技术问题。为了达到上述目的,第一方面本申请提供了一种车载语音处理方法,应用于车载信息娱乐系统,所述方法包括:获取至少两个用户的实时图像;根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象;根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。在一些实施例中,所述根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象,包括:根据所述至少两个用户的实时图像,识别所述至少两个用户的姿态数据;根据所述至少两个用户的姿态数据,识别所述至少两个用户是否存在正在进行交互的对象;若存在,根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象。在一些实施例中,所述姿态数据包括实时唇部动作,所述根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象包括:根据所述至少两个用户的实时唇部动作判断所述至少两个用户是否处于互相交谈状态;当判断所述至少两个用户处于互相交谈状态时,确定所述至少两个用户的目标交互对象为车内用户。在一些实施例中,所述姿态数据包括注视方向,所述根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象包括:对于所述至少两个用户中的用户,若该用户的注视方向为预设方向,或者,若该用户的注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值,则确定该用户的目标交互对象为所述车载信息娱乐系统。在一些实施例中,所述姿态数据包括身体姿势,所述根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象包括:对于所述至少两个用户中的用户,若该用户的身体姿势满足相应的预设条件,则确定该用户的目标交互对象为车内用户。在一些实施例中,所述根据所述至少两个用户的实时图像,识别所述至少两个用户的姿态数据后,所述方法还包括:当识别到的所述至少两个用户的姿态数据包含预设面部表情时,通过预设图像设备和/或预设语音设备推送所述预设面部表情对应的安抚信息。在一些实施例中,所述根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理,包括:根据所述至少两个用户的目标交互对象,确定所述至少两个用户中是否存在目标交互对象为所述车载信息娱乐系统的用户;若所述至少两个用户中存在目标交互对象为所述车载信息娱乐系统的用户,采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理;或,若所述至少两个用户中不存在目标交互对象为所述车载信息娱乐系统的用户,采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理;或,若无法确定所述至少两个用户中是否存在所述目标交互对象为车载信息娱乐系统的用户,采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理;其中,所述第一语音识别规则、所述第二语音识别规则及所述第三语音识别规则所包括的待识别语音关键词不完全相同。在一些实施例中,所述采用第一语音识别规则对采集的所述车内实时语音数据进行识别及处理,包括:识别采集的目标交互对象为所述车载信息娱乐系统的用户的实时语音数据是否包括预设高级热词和/或预设低级热词;在识别到所述目标交互对象为所述车载信息娱乐系统的用户的实时语音数据包括所述预设高级热词和/或预设低级热词时,根据对应的反馈规则生成相应的反馈结果并返回;所述采用第二语音识别规则对采集的所述车内实时语音数据进行识别及处理,包括:识别采集的所述车内实时语音数据是否包括所述预设高级热词和/或预设唤醒词;在识别到所述车内实时语音数据包括所述预设高级热词和/或预设唤醒词时,根据对应的反馈规则生成相应的反馈结果并返回;所述采用第三语音识别规则对采集的所述车内实时语音数据进行识别及处理,包括:识别采集的所述车内实时语音数据是否包括所述预设高级热词;在识别到所述车内实时语音数据包括所述预设高级热词时,根据对应的反馈规则生成相应的反馈结果并返回。在一些实施例中,所述方法还包括:若不存在,则不对采集的车内实时语音数据进行识别及处理。第二方面,本申请提供了一种车载信息娱乐系统,所述系统包括摄像头、车载控制系统及车载语音交互系统,其中,所述摄像头用于采集至少两个用户的实时图像;所述车载控制系统用于:根据采集的所述至少两个用户的实时图像,识别所述至少两个用户的目标交互对象;以及向所述车载语音交互系统发送包含所述至少两个用户的目标交互对象的消息;所述车载语音交互系统用于根据包含所述至少两个用户的目标交互对象的消息,采用所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。第三方面,本申请提供了一种电子设备,所述电子设备包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:获取至少两个用户的实时图像;根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象;根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。第四方面,本申请提供了一种车载语音处理装置,所述装置包括:获取模块,用于获取至少两个用户的实时图像;识别模块,用于根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象;处理模块,用于根据所本文档来自技高网...

【技术保护点】
1.一种车载语音处理方法,其特征在于,应用于车载信息娱乐系统,所述方法包括:/n获取至少两个用户的实时图像;/n根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象;/n根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。/n

【技术特征摘要】
1.一种车载语音处理方法,其特征在于,应用于车载信息娱乐系统,所述方法包括:
获取至少两个用户的实时图像;
根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象;
根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理。


2.根据权利要求1所述的车载语音处理方法,其特征在于,所述根据所述至少两个用户的实时图像,识别所述至少两个用户是否存在正在进行交互的对象;若存在,则识别所述至少两个用户的目标交互对象,包括:
根据所述至少两个用户的实时图像,识别所述至少两个用户的姿态数据;
根据所述至少两个用户的姿态数据,识别所述至少两个用户是否存在正在进行交互的对象;
若存在,根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象。


3.根据权利要求2所述的车载语音处理方法,其特征在于,所述姿态数据包括实时唇部动作,所述根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象包括:
根据所述至少两个用户的实时唇部动作判断所述至少两个用户是否处于互相交谈状态;
当判断所述至少两个用户处于互相交谈状态时,确定所述至少两个用户的目标交互对象为车内用户。


4.根据权利要求2所述的车载语音处理方法,其特征在于,所述姿态数据包括注视方向,所述根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象包括:
对于所述至少两个用户中的用户,若该用户的注视方向为预设方向,或者,若该用户的注视方向所望向的车内位置与预设的目标位置的距离不超过预设距离阈值,则确定该用户的目标交互对象为所述车载信息娱乐系统。


5.根据权利要求2所述的车载语音处理方法,其特征在于,所述姿态数据包括身体姿势,所述根据所述至少两个用户的姿态数据,识别所述至少两个用户的目标交互对象包括:
对于所述至少两个用户中的用户,若该用户的身体姿势满足相应的预设条件,则确定该用户的目标交互对象为车内用户。


6.根据权利要求2所述的车载语音处理方法,其特征在于,所述根据所述至少两个用户的实时图像,识别所述至少两个用户的姿态数据后,所述方法还包括:
当识别到的所述至少两个用户的姿态数据包含预设面部表情时,通过预设图像设备和/或预设语音设备推送所述预设面部表情对应的安抚信息。


7.根据权利要求1至6中任一项所述的车载语音处理方法,其特征在于,所述根据所述至少两个用户的目标交互对象对应的语音识别规则对采集的车内实时语音数据进行识别及处理,包括:

【专利技术属性】
技术研发人员:杨凤丽
申请(专利权)人:宁波均联智行科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1