一种基于固定时长语音情感识别序列分析的测谎方法技术

技术编号：22170753 阅读：51 留言：0更新日期：2019-09-21 12:13

本发明专利技术公开了一种基于固定时长语音情感识别序列分析的测谎方法，该方法主要内容是：首先对录制的测谎语料库进行处理，使之成为两类等长的短时语料，便于后续实验；然后对语音进行预加重、分帧和加窗等预处理工作；基于语音的时频特性，提取包括基音频率、MFCC、共振峰、短时能量和短时平均过零率及其统计特征等语音情感特征；并运用决策树进行特征选择，最终形成特征向量；使用SVM对语料库进行训练，对被测语音进行预测，并定时输出语音情感结果；利用定时输出语音情感结果来进行测谎分析。本发明专利技术采用决策树的方法来进行特征选择，获得了更高的准确率；以向量形式输出结果，充分考虑说谎过程中的情绪变化情况。

A Lie Detection Method Based on Fixed-time Speech Emotion Recognition Sequence Analysis

全部详细技术资料下载

【技术实现步骤摘要】
一种基于固定时长语音情感识别序列分析的测谎方法
本专利技术属于非接触式测谎，尤其涉及一种基于固定时长语音情感识别序列分析的测谎方法，属于测谎

技术介绍
声音是人们最直接、最方便的交流方式，基于语音的测谎是非接触式的，录音设备简单，不需要很复杂的设备，准备时间很短，受试者不会有很大的心理压力，从而提高了分析的准确性。这是本文所进行的研究的重要意义。语音中包含着说话人的很多信息，如说话者的身份、性别和年龄，甚至性格。早期的研究显示语音中包含着说话者的情绪状态，隐含许多可靠的语音特征与特定情绪间的关系。当人们紧张害怕时，基频和语速会上升，而当人们慌乱时，基频和语速会下降。说谎是一种复杂的心理生理过程，说话时伴随着明显的情绪变化，因此，利用声学特征(基频，语音持续时间和共振峰频率等)可以获知大量的心理和情绪信息。专注以语音特征为线索的测谎技术的研究起步相对较晚，多数人关注声学特征对语音测谎的影响，但是至今为止，并没有哪一个特征能单独有效的直接用于测谎。
技术实现思路
针对现有技术存在的以上问题，本专利技术旨在提供一种基于固定时长语音情感识别序列分析的测谎方法，根据语音的时频特性，提取语音情感特征，基于决策树进行特征选择，最终形成一个14维的特征向量，然后在自建的汉语测谎语料库下，使用SVM完成对语料库的训练和预测，并根据语音时长输出一个语音情感序列，使用HMM模型研究该序列与谎言检测之间的联系。为实现本专利技术的目的，本专利技术所采用的技术方案如下：一种基于固定时长语音情感识别序列分析的测谎方法，其特征在于：该方法包括以下几个步骤：步骤1：建立汉语测谎语料库...

【技术保护点】
1.一种基于固定时长语音情感识别序列分析的测谎方法，其特征在于：该方法包括以下几个步骤：步骤1：建立汉语测谎语料库，并加工处理；步骤2：对语音进行预处理；步骤3：根据语音时频特性，提取语音情感特征；步骤4：基于决策树的方法完成特征选择，形成特征向量；步骤5：使用SVM对语料库进行训练，对被测语音进行预测，并定时输出语音情感结果；步骤6：利用定时输出语音情感结果来进行测谎分析。

【技术特征摘要】
1.一种基于固定时长语音情感识别序列分析的测谎方法，其特征在于：该方法包括以下几个步骤：步骤1：建立汉语测谎语料库，并加工处理；步骤2：对语音进行预处理；步骤3：根据语音时频特性，提取语音情感特征；步骤4：基于决策树的方法完成特征选择，形成特征向量；步骤5：使用SVM对语料库进行训练，对被测语音进行预测，并定时输出语音情感结果；步骤6：利用定时输出语音情感结果来进行测谎分析。2.根据权利要求1所述的基于固定时长语音情感识别序列分析的测谎方法，其特征在于：所述步骤1：建立汉语测谎语料库，并加工处理；具体如下：步骤1.1：建立汉语测谎语料库；步骤1.2：将谎话语料中的真话片段提出；步骤1.3：将真话和谎话切分成等时长的语料段，并贴好标签，方便后续实验。3.根据权利要求1所述的基于固定时长语音情感识别序列分析的测谎方法，其特征在于：所述步骤2：对语音进行预处理，具体如下：步骤2.1：对语音信号离散化，使用一阶高通滤波器进行预加重，一阶高通滤波器的表达式如下：H(z)＝1-αz-1，0.9＜α＜1.0步骤2.2：对信号进行分帧，帧长为30ms，帧移为10ms；步骤2.3：选择汉明窗函数，其计算公式如下：4.根据权利要求1所述的基于固定时长语音情感识别序列分析的测谎方法，其特征在于：步骤3：提取语音情感特征，具体如下，步骤3.1：提取短时能量，短时能量是指一帧语音的能量，设语音信号为x(n)、加窗函数ω(n)分帧处理后的第i帧语音信号为yi(n)，则yi(n)满足：yi(n)＝ω(n)*x((i-1)*inc+n)，1≤n≤L，1≤i≤fnω(n)为窗函数；yi(n)是一帧的数值；inc为帧移长度；fn为分帧后的总帧数，则第i帧的语音信号的短时能量为步骤3.2：提取短时平均过零率，它表示一帧语音中信号的波形穿过零电平的次数。对于离散信号来说，相邻数据改变一次符号就算做一次过零，设语音信号为x(n)，分帧后第i帧语音信号为yi(n)，短时平均过零率为步骤3.3：提取基音频率，基音周期是声带开启和闭合一次说用的时长，基音频率是其倒数，当信号序列为x(n)时，它的傅里叶变换为X(ω)＝FFT[x(n)]则序列称为倒频谱，简称为倒谱，这里FFT和FFT-1分别为傅里叶变换和傅里叶反变换，的实际单位是时间s。语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得，即x(n)＝u(n)*v(n)则这三个量的倒谱有在倒频谱中，声门脉冲激励和声道响应是相对分离的，因此从中可以分离恢复出声门脉冲激励，从而得到基音周期；步骤3.4：共振峰是指在声音的频谱中能量相对集中的一些区域，用LPC法进行提取，语音信号的一帧信号x(n)可由差分方程表示为相应的声道传递函数为取功率谱模值，用P(f)表示P(f)＝|H(f)|2其中z-1＝e-jωT利用FFT可对任意频率求得它的功率谱幅值响应，并从幅值响应中找到共振峰的信息；步骤3.5：提取MFCC参数，首先进行预处理，原信号...

【专利技术属性】
技术研发人员：李玉峰，黄永明，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人