基于声纹和人脸识别的机器人交互方法技术

技术编号:14005606 阅读:117 留言:0更新日期:2016-11-16 23:35
本发明专利技术公开了一种基于声纹和人脸识别的机器人交互方法,其包括人脸识别部分和声纹识别部分;人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,来自用户集内哪位用户;声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户。本发明专利技术通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答,能很好的与提问者进行交流。

【技术实现步骤摘要】

本专利技术涉及一种交互方法,特别是涉及一种基于声纹和人脸识别的机器人交互方法
技术介绍
现有机器人问答系统的回答一般不考虑到提问者的身份,也不考虑提问者的表情和语气,做一个通用的回答,这种问答系统的智能化程度较低,不能很好的与提问者进行交流。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于声纹和人脸识别的机器人交互方法,其通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答,能很好的与提问者进行交流。本专利技术是通过下述技术方案来解决上述技术问题的:一种基于声纹和人脸识别的机器人交互方法,其特征在于,其包括人脸识别部分和声纹识别部分;人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内哪位用户;声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户,首先通过大量说话人的语料,进行系统模型空间训练,生成系统所需要的空间参数;然后对于需要识别的说话人进行注册,通过注册说话人声纹生成部分,生成用户集内每个注册说话人的声纹;最后,在实际应用中,对需要识别的说话人语音生成声纹,与用户集内每个注册说话人的声纹进行对比,得出是用户集内哪个说话人。优选地,所述人脸识别部分采用的是基于人工神经网络模式识别的方法,通过采集的样本图像,抽取相关特征,学习产生分类器。优选地,所述人脸识别部分具体包括以下三个步骤:步骤一,首先建立人脸的面像档案;即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件,并将这些面像文件生成面纹编码贮存起来;步骤二,获取当前的人体面像;即用摄像机捕捉的当前出入人员的面像,或取照片输入,并将当前的面像文件生成面纹编码;步骤三,用当前的面纹编码与档案库存的比对;上述的面纹编码方式是根据人脸脸部的本质特征和开头来工作的。优选地,所述脸部特征利用主分量分析进行降维和提取特征。优选地,所述脸部特征对人脸的表情关键点进行抽取和识别,根据不同表情的典型关键点的相对位置进行比对,进而判别出人脸的表情种类。优选地,所述人脸的表情关键点采用以下步骤进行识别:一,图像获取:通过图像捕捉工具获取静态图像或动态图像序列;二,图像预处理:图像的大小和灰度的归一化、头部姿态的矫正、图像分割;三,特征提取:将点阵转化成更高级别图像表述。优选地,所述声纹识别部分采用的是基于i-vector的说话人识别系统,该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。优选地,所述系统模型空间训练的具体过程如下:一,对大量的训练说话人的原始语料,进行特征提取,这里用梅尔频率倒谱系数或者线性预测倒谱系数作为提取的特征;二,通过上一步生成的大量训练说话人的特征,生成一个覆盖面较广的描述整个说话人空间的通用背景模型;三,在i-vector系统中,某个说话人的一段语料由一个均值超矢量M来表示;四,为了进行信道补偿,对训练语料说话人的i-vector因子进行线性判别分析计算,生成信道补偿因子。优选地,所述注册说话人声纹生成对于注册说话人语料,首先提取特征,计算Baum Welch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成最终的注册说话人声纹。优选地,所述测试说话人识别首先提取特征,计算Baum Welch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成测试说话人声纹;然后计算测试说话人和每个注册说话人的余弦得分。优选地,所述基于声纹和人脸识别的机器人交互方法通过人脸技术和声纹技术进行合并识别,达到最终的非常准确的人员识别的结果,当只有人脸信息或只有语音信息时,单独使用人脸识别技术或声纹识别技术识别;但如果同时得到人脸信息和语音信息,需要综合两者信息识别注册成员;识别步骤如下:一,从人脸识别引擎中获得每个注册成员的人脸识别M维得分;二,从声纹识别引擎中获得每个注册成员的声纹识别N维得分;三,通过主分量分析对M+N维得分数据进行运算,得出每个注册成员的融合得分;主分量分析的参数通过训练集生成;四,选出融合得分最高的注册成员作为识别的结果。本专利技术的积极进步效果在于:本专利技术通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答,能很好的与提问者进行交流,提高智能化程度,结构简单,成本低。附图说明图1为本专利技术系统模型空间训练的原理图。图2为本专利技术注册说话人声纹生成的原理图。具体实施方式下面结合附图给出本专利技术较佳实施例,以详细说明本专利技术的技术方案。本专利技术基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分;人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内的哪位用户。人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术。本专利技术人脸识别部分采用的是较前沿的基于人工神经网络模式识别的方法,通过采集的样本图像,抽取相关特征,学习产生分类器。技术的核心为“局部人体特征分析”和“图形/神经识别算法”,这种算法是利用人体面部各器官及特征部位的方法,如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认,具有准确快速的优点。人脸识别部分具体包括以下三个步骤:(1)首先建立人脸的面像档案。即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件,并将这些面像文件生成面纹(Faceprint)编码贮存起来。(2)获取当前的人体面像。即用摄像机捕捉的当前出入人员的面像,或取照片输入,并将当前的面像文件生成面纹编码。(3)用当前的面纹编码与档案库存的比对。即将当前的面像的面纹编码与档案库存中的面纹编码进行检索比对;上述的“面纹编码”方式是根据人脸脸部的本质特征和开头来工作的。这种面纹编码可以抵抗光线、皮肤色调、面部毛发、发型、眼镜、表情和姿态的变化,具有强大的可靠性,从而使它可以从百万人中精确地辨认出某个人。人脸的识别过程,利用普通的图像处理设备就能自动、连续、实时地完成。本专利技术采用的脸部特征利用主分量分析进行降维和提取特征。主分量分析是一种应用十分广泛的数据降维技术,该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基,以达到最佳表征原数据的目的。因为由主分量分析提取的特征向量返回成图像时,看上去仍像人脸,所以这些特征向量被称为“特征脸”。在人脸识别中,由一组特征脸基图像张成一个特征脸子空间,任何一幅人脸图像(减去平均人脸后)都可投影到该子空间,得到一个权值向量。计算此向量和训练集中每个人的权值向量之间的欧式距离,取最小距离所对应的人脸图像的身份作为测试人脸图像的身份。主分量分析是一种无监督学习方法,主分量是指向数据能量分布最大的轴线方向,因此本文档来自技高网...
基于声纹和人脸识别的机器人交互方法

【技术保护点】
一种基于声纹和人脸识别的机器人交互方法,其特征在于,所述基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分;人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内哪位用户;声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户,首先通过大量说话人的语料,进行系统模型空间训练,生成系统所需要的空间参数;然后对于需要识别的说话人进行注册,通过注册说话人声纹生成部分,生成用户集内每个注册说话人的声纹;最后,在实际应用中,对需要识别的说话人语音生成声纹,与用户集内每个注册说话人的声纹进行对比,得出是用户集内哪个说话人。

【技术特征摘要】
1.一种基于声纹和人脸识别的机器人交互方法,其特征在于,所述基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分;人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内哪位用户;声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户,首先通过大量说话人的语料,进行系统模型空间训练,生成系统所需要的空间参数;然后对于需要识别的说话人进行注册,通过注册说话人声纹生成部分,生成用户集内每个注册说话人的声纹;最后,在实际应用中,对需要识别的说话人语音生成声纹,与用户集内每个注册说话人的声纹进行对比,得出是用户集内哪个说话人。2.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述人脸识别部分采用的是基于人工神经网络模式识别的方法,通过采集的样本图像,抽取相关特征,学习产生分类器。3.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述人脸识别部分具体包括以下三个步骤:步骤一,首先建立人脸的面像档案;即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件,并将这些面像文件生成面纹编码贮存起来;步骤二,获取当前的人体面像;即用摄像机捕捉的当前出入人员的面像,或取照片输入,并将当前的面像文件生成面纹编码;步骤三,用当前的面纹编码与档案库存的比对;上述的面纹编码方式是根据人脸脸部的本质特征和开头来工作的。4.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述脸部特征利用主分量分析进行降维和提取特征。5.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述脸部特征对人脸的表情关键点进行抽取和识别,根据不同表情的典型关键点的相对位置进行比对,进而判别出人脸的表情种类。6.如权利要求5所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述人脸的表情关键点采用以下步骤进行识别:一,图像获取:通过图像捕捉工具获取静态图像或动态图像序列;二,图...

【专利技术属性】
技术研发人员:吴义坚赖伟张峰
申请(专利权)人:上海元趣信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1