本发明专利技术涉及一种车载语音包推荐系统及方法,尤其涉及智慧座舱技术领域,包括语音获取模块,用以获取汽车驾驶员对车机系统的唤醒对话并标记为语音信息;图像获取模块,用以获取车机摄像装置拍摄的汽车驾驶员的图像并标记为图像信息;数据上传模块,用以对语音信息和图像信息进行上传;驾驶员反馈模块,用以获取驾驶员对使用的语音包满意度信息;数据分析模块,用以分析语音信息和图像信息并根据分析结果推荐最合适的语音包;信号接收模块,用以接收推荐的语音包信息;语音包控制模块,用以根据推荐的语音包信息,对语音包的选择进行控制。本发明专利技术实现对车载语音包的自动推荐,提高了语音包的推荐效率和用户满意度。了语音包的推荐效率和用户满意度。了语音包的推荐效率和用户满意度。
【技术实现步骤摘要】
一种车载语音包推荐系统及方法
[0001]本专利技术涉及智慧座舱
,尤其涉及一种车载语音包推荐系统及方法。
技术介绍
[0002]在当前人工智能时代背景下,驾乘人员使用车载语音对话功能频率越来越高,经常因找不到一个适合自己语音包而烦恼,或是语音播报太过啰嗦,又或是语音包不够严肃,种种问题在一定程度上影响用户情绪,从而增加用户的出行风险。本专利技术依据上述待解决的问题,根据图像识别驾乘人员的驾驶特征、身份角色、面部表情作为大数据的数据采集源,依据神经网络机器学习算法推荐适合用户的语音包。
[0003]中国专利公开号:CN113267189A,公开了一种基于物联网和大数据的智能导航系统和方法,包括获取用户标识对应的导航路径,所述导航路径包括路径起点和路径终点;查询所述导航路径中全部导航关键点,每个所述导航关键点对应一条语音;针对每个所述导航关键点,根据所述导航关键点和所述导航路径,确定所述导航关键点对应的搜索式;根据所述搜索式查询抉择性导航语音库,得到每个所述导航关键点对应的语音,生成语音包;将所述语音包发送至车载导航终端,以触发所述车载导航终端通过播放所述语音包中的语音,为用户导航。此专利技术根据导航关键点对应的语音,生成语音包,重点在导航关键地点的语音播报,存在语音包推荐不准确、语音包推荐效率低等问题。
技术实现思路
[0004]为此,本专利技术提供一种车载语音包推荐系统及方法,用以克服现有技术中语音包推荐效率低的问题。
[0005]为实现上述目的,一方面,本专利技术提供一种车载语音包推荐系统,包括:
[0006]语音获取模块,用以实时获取汽车驾驶员进行人机交互时的语音信息;
[0007]图像获取模块,用以实时获取汽车驾驶员进行人机交互时车机摄像装置拍摄的汽车驾驶员的图像信息;
[0008]数据上传模块,用以对所述语音信息和所述图像信息进行上传;
[0009]驾驶员反馈模块,用以获取驾驶员对当前语音包的满意度信息;
[0010]数据分析模块,用以对所述语音信息和所述图像信息进行分析,并根据分析结果进行语音包推荐;
[0011]信号接收模块,用以接收推荐语音包的信息;
[0012]车机存储模块,用以对语音包进行存储;
[0013]语音包控制模块,用以根据推荐语音包的信息控制当前语音包的选择;
[0014]所述数据分析模块包括:
[0015]数据特征分析融合单元,用以对所述语音信息和所述图像信息分别进行特征分析,分别得到语音特征信息和图像特征信息,数据特征分析融合单元还用以将各特征信息进行融合,以形成用户特征信息;
[0016]推荐语音包反馈单元,用以根据获取的满意度信息对推荐语音包进行反馈;
[0017]语音包选择推荐单元,用以根据所述用户特征信息对语音包进行选择推荐,还用以根据推荐语音包反馈结果对语音包的推荐结果进行优化。
[0018]进一步地,所述语音获取模块在获取语音信息时,根据汽车驾驶员与车机系统的人机交互方式对语音信息进行获取,其中:
[0019]当人机交互方式为语音交互时,所述语音获取模块获取人机交互时的语音信息;
[0020]当人机交互方式非语音交互时,所述语音获取模块不进行语音信息获取。
[0021]进一步地,所述图像获取模块在获取汽车驾驶员的图像信息时,根据语音信息的获取状态对图像信息进行获取,其中:
[0022]当获取语音信息成功时,所述图像获取模块同步获取汽车驾驶员的图像信息;
[0023]当未获取语音信息时,所述图像获取模块不进行图像信息获取。
[0024]进一步地,所述数据上传模块在对语音信息和图像信息进行上传时,根据对图像信息的获取状态对语音信息和图像信息进行上传,其中:
[0025]当获取图像信息成功时,所述数据上传模块对语音信息和图像信息进行上传;
[0026]当未获取图像信息时,所述数据上传模块不进行上传。
[0027]进一步地,所述数据特征分析融合单元在对图像特征信息与语音特征信息进行融合运算时,设定融合公式如下:
[0028]P(y|x)=σ(ωT[h1,h2,...,hk]+b)
[0029]其中,P(y|x)为用户特征概率,表示给定图像特征信息和语音特征信息条件下的用户画像预测概率,σ()表示sigmoid函数,用于将用户特征信息转换为概率值,x表示输入的图像特征信息和语音特征信息的集合,x={x1,x2},其中,x1表示图像特征信息,x2表示语音特征信息,T[h1,h2,...,hk]表示k次特征向量之和,k表示汽车驾驶员的交互次数,h1表示首次交互的图像语音组合向量,h2表示第二次交互的图像语音组合向量,hk表示第k次交互的图像语音组合向量,ω表示权重向量,b表示偏执量,权重向量的计算方法为:ω=(n+m)/k,其中,n表示图像特征信息的图像特征维度,m表示语音特征信息的语音特征维度。
[0030]进一步地,所述数语音包选择推荐单元在对语音包进行选择推荐时,根据用户特征概率P(y|x)计算语音包推荐值h(x),以对语音包进行选择推荐,设定h(x)=f(g(x)),其中,g(x)=P(y|x),f表示机器学习算法。
[0031]进一步地,所述推荐语音包反馈单元在对推荐语音包进行反馈时,根据语音包满意度信息对推荐语音包进行反馈,其中:
[0032]所述推荐语音包反馈单元设有损失函数,并根据语音包满意度计算语音包推荐值偏差L(h(x),t),并将推荐值偏差反馈至语音包选择推荐单元,设定L(h(x),t)=
‑
(α((1
‑
t)∧γ)h(x)log(t)+(1
‑
α)(t∧γ)(1
‑
h(x))log(1
‑
t)],其中,t表示语音包满意度,设定0≤t≤1,α和(1
‑
α)分别为控制正样本和负样本的比例,α的取值范围为[0,1],γ为聚焦参数,γ的取值范围为[0,+∞)。
[0033]进一步地,所述语音包选择推荐单元在对语音包的推荐结果进行优化时,根据推荐语音包反馈结果对语音包的推荐结果进行优化,其中,
[0034]所述语音包选择推荐单元设有优化函数,并根据语音包推荐值偏差对语音包推荐值进行优化,优化后的语音包推荐值为θ,设定值进行优化,优化后的语音包推荐值为θ,设定其
中,η为学习率,η的取值范围为(0,1)。
[0035]进一步地,所述语音包控制模块在对语音包的选择进行控制时,根据推荐语音包的信息对当前语音包的选择进行控制,其中:
[0036]当推荐语音包存在于车机存储模块时,所述语音包控制模块选取推荐语音包作为当前语音包;
[0037]当推荐语音包不存在于车机存储模块时,所述语音包控制模块下载推荐语音包至车机存储模块,并将其作为当前语音包。
[0038]另一方面,本专利技术提供了一种车载语音包推荐方法,包括:
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种车载语音包推荐系统,其特征在于,包括:语音获取模块,用以实时获取汽车驾驶员进行人机交互时的语音信息;图像获取模块,用以实时获取汽车驾驶员进行人机交互时车机摄像装置拍摄的汽车驾驶员的图像信息;数据上传模块,用以对所述语音信息和所述图像信息进行上传;驾驶员反馈模块,用以获取驾驶员对当前语音包的满意度信息;数据分析模块,用以对所述语音信息和所述图像信息进行分析,并根据分析结果进行语音包推荐;信号接收模块,用以接收推荐语音包的信息;车机存储模块,用以对语音包进行存储;语音包控制模块,用以根据推荐语音包的信息控制当前语音包的选择;所述数据分析模块包括:数据特征分析融合单元,用以对所述语音信息和所述图像信息分别进行特征分析,分别得到语音特征信息和图像特征信息,数据特征分析融合单元还用以将各特征信息进行融合,以形成用户特征信息;推荐语音包反馈单元,用以根据获取的满意度信息对推荐语音包进行反馈;语音包选择推荐单元,用以根据所述用户特征信息对语音包进行选择推荐,还用以根据推荐语音包反馈结果对语音包的推荐结果进行优化。2.根据权利要求1所述的一种车载语音包推荐系统,其特征在于,所述语音获取模块在获取语音信息时,根据汽车驾驶员与车机系统的人机交互方式对语音信息进行获取,其中:当人机交互方式为语音交互时,所述语音获取模块获取人机交互时的语音信息;当人机交互方式非语音交互时,所述语音获取模块不进行语音信息获取。3.根据权利要求1所述的一种车载语音包推荐系统,其特征在于,所述图像获取模块在获取汽车驾驶员的图像信息时,根据语音信息的获取状态对图像信息进行获取,其中:当获取语音信息成功时,所述图像获取模块同步获取汽车驾驶员的图像信息;当未获取语音信息时,所述图像获取模块不进行图像信息获取。4.根据权利要求3所述的一种车载语音包推荐系统,其特征在于,所述数据上传模块在对语音信息和图像信息进行上传时,根据对图像信息的获取状态对语音信息和图像信息进行上传,其中:当获取图像信息成功时,所述数据上传模块对语音信息和图像信息进行上传;当未获取图像信息时,所述数据上传模块不进行上传。5.根据权利要求1所述的一种车载语音包推荐系统,其特征在于,所述数据特征分析融合单元在对图像特征信息与语音特征信息进行融合运算时,设定融合公式如下:P(y|x)=σ(ωT[h1,h2,...,hk]+b)其中,P(y|x)为用户特征概率,表示给定图像特征信息和语音特征信息条件下的用户画像预测概率,σ()表示sigmoid函数,用于将用户特征信息转换为概率值,x表示输入的图像特征信息和语音特征信息的集合,x={x1,x2},其中,x1表示图像特征信息,x2表示语音特征信息,T[h1,h2,...,hk]表示k次特征向量之和,k表示汽车驾驶员的交互次数,h1表示首次交互的图像语音组合向量,h2表示第二次交互的图像语音组合向量,hk表示第k次交互
【专利技术属性】
技术研发人员:吴静涛,
申请(专利权)人:一汽北京软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。