当前位置: 首页 > 专利查询>武汉大学专利>正文

一种涉及媒体片段的说话检测方法及系统技术方案

技术编号:12882927 阅读:71 留言:0更新日期:2016-02-17 15:25
本发明专利技术提供一种涉及媒体片段的说话检测方法及系统,包括将输入的媒体信号分为音频信号和视频信号,分别进行处理,对于音频信号根据谐频似然比采用隐马尔可夫模型计算每秒的条件概率,进行聚类,对于视频信号对输入的媒体文件的视频信号,提取每帧图像中人脸区域、提取嘴唇部分、嘴唇区域的图像能量,根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率,进行聚类,得到两类;将对音频信号和视频信号分别得到的聚类结果进行匹配,得到说话检测的最终结果。本发明专利技术的优点是能够通过音频和视频两种信息进行说话检测,提高检测率。

【技术实现步骤摘要】

本专利技术涉及说话检测
,具体涉一种涉及媒体片段的说话检测方法及系 统。
技术介绍
随着信息技术的发展,人机交互、远程会议、声纹识别等技术成为热点研究对象, 说话检测作为其中重要的部分也得到了越来越多的重视。说话检测技术就是区分媒体片段 中的人员是否说话的一种技术。传统的说话活动检测方法主要是单纯基于音频信息或者视 频信息,鲁棒性差。为了解决这一问题,基于音视频信息的多模态说话检测技术被引入。但 现有技术通常通过一个监督学习的训练器,泛化能力不强,导致检测率下降。
技术实现思路
本专利技术针对不同媒体文件在不同环境具有不同的特性,提出了一种音视频信息匹 配的说话检测方法及系统,有别于传统基于有监督的方法,利用说话活动在音频和视频信 息遵循相同的时间分布,通过音视频信息的匹配进行说话检测。 为达到上述目的,本专利技术提供的技术方案为一种涉及媒体片段的说话检测方法, 包括以下步骤: 步骤1,将输入的媒体信号S(t)分为音频信号Si(t)和视频信号S2(t),分别进行 处理, 对于音频信号Si(t),处理如下, 对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量; 计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号; 根据谐频似然比logA(t),采用隐马尔可夫模型计算每秒的条件概率P(0t|λ), 进行聚类,得到两类;所述隐马尔可夫模型中,显状态〇t为谐频似然比logA(t)归一化后 结果,隐状态^表示说话或者不说话; 对于视频信号S2 (t),处理如下: 对输入的媒体文件的视频信号,提取每帧图像中人脸区域; 在提取的人脸区域提取嘴唇部分; 提取每帧图像中嘴唇区域的特征,所述特征为图像能量E; 根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(0t |λ),进行聚类,得 到两类;所述隐马尔可夫模型中,显状态〇t为图像能量Ε归一化后结果,隐状态qt表示 说话或者不说话; 步骤2,将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑 距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下, 定义LXiY(m,n)表示第一个序列X=Xlx2…\的长度为η的子串到第二个序列Y =yiy2…长度为m的子串的编辑距离,设0彡i彡m, 0彡j彡n,Del,Ins,Sub分别是 删除、插入、替换的代价,计算如下, 若min(i,j) = 0,LX,Y (m,n) =max(i,j), 否则 其中,Xl表示音频聚类结果,y表示视频聚类结果。 而且,所述图像能量E计算如下, 其中,vy,t(i,j)表示像素点(i,j)在MXN大小的图像中Y方向上的速度。 本专利技术还相应提供一种涉及媒体片段的说话检测系统,包括以下模块: 音视频聚类模块,将输入的媒体信号S(t)分为音频信号Si(t)和视频信号S2 (t), 分别进行处理, 对于音频信号Si⑴,处理如下, 对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量; 计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号; 根据谐频似然比logA(t),采用隐马尔可夫模型计算每秒的条件概率P(0t|λ), 进行聚类,得到两类;所述隐马尔可夫模型中,显状态〇t为谐频似然比logA(t)归一化后 结果,隐状态^表示说话或者不说话; 对于视频信号s2 (t),处理如下: 对输入的媒体文件的视频信号,提取每帧图像中人脸区域; 在提取的人脸区域提取嘴唇部分; 提取每帧图像中嘴唇区域的特征,所述特征为图像能量E; 根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(0t |λ),进行聚类,得 到两类;所述隐马尔可夫模型中,显状态〇t为图像能量Ε归一化后结果,隐状态qt表示 说话或者不说话; 匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序 列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下, 定义LXiY(m,η)表示第一个序列X=xj;;…长度为η的子串到第二个序列Y =yiy2…长度为m的子串的编辑距离,设0彡i彡m, 0彡j彡n,Del,Ins,Sub分别是 删除、插入、替换的代价,计算如下, 若min(i,j) = 0,LX,Y (m,n) =max(i,j), 否则 其中,Xl表示音频聚类结果,y,表示视频聚类结果。 而且,所述图像能量E计算如下, 其中,vy,t(i,j)表示像素点(i,j)在MXN大小的图像中Y方向上的速度。 本专利技术通过对音视频信息进行匹配的角度进行说话检测,去除了传统方法复杂的 训练过程,同时提高了正确检测率。【附图说明】 图1是本专利技术实施例的方法流程图。 图2是本专利技术实施例的结构框图。【具体实施方式】 以下结合实施例和附图详细说明本专利技术技术方案。 如图1,本专利技术实施例所提供方法的处理工作包括具体以下的步骤: 步骤1,将输入的媒体信号S(t)分为音频信号Si(t)和视频信号S2(t),分别进行 处理,对于音频信号Si(t),处理如下: (1)对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量,设实施 例中得到多个离散傅里叶窗DFT(DiscreteFouriertransform)中共有的一个谐波频率。(2)计算各帧含有谐频成分的似然比logA(t),作为音频特征,t为音频的帧标 号。 具体实施时,(1)和⑵可采用现有技术实现,例如参考文献LNTan,BJ Borgstrom,AAlwan.Voiceactivitydetectionusingharmonicfrequencycomponents inlikelihoodratiotest.AcousticsSpeechandSignalProcessing(ICAS SP),2010:4466 - 4469. (3)根据谐频似然比进行聚类,得到两类。实施例中根据一秒内所有帧的谐频似然 比l〇gA(t),用HMM(HiddenMarkovModels)计算每秒的条件概率P(0t|λ),其中的显状态 〇t为步骤⑵得到的谐频似然比logA⑴(将其归一化,即0te{1,2,…,10}),隐 状态qt表示说话或者不说话,隐状态个数为N'即Nq= 2。用Baum-Welch进行训练学习, 得到模型参数λ= (Α,Β,π),其中A表示隐状态的转移矩阵,B表示某个时刻因隐藏状态 而可观察的状态的概率,即混淆矩阵;η表示初始状态概率。设计一个窗口长度为T(T为 视频的每秒帧数)的滑窗,利用前向后向算法计算其对应的P(〇t|λ)作为聚类的特征。具 体实施时,可参考文献Rabiner,L.R.,etal.:Atutorialonhiddenmarkovmodelsand selectedapplicationsinspeechrecognition.Proc.IEEE77(2),257 - 286 (1989).AT&TBellLab,MurrayHill。 实施例聚类用的是K-means算法,得到两类,分别用0和1表示。对于视频信号S2 (t),处理如下: (1)提取输入的媒体文件的视频信号的每帧图像中人脸区域,实施例利用Haar 特征的级联器提取视频每帧图像中的本文档来自技高网...

【技术保护点】
一种涉及媒体片段的说话检测方法,其特征在于,包括以下步骤:步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,对于音频信号S1(t),处理如下,对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;对于视频信号S2(t),处理如下:对输入的媒体文件的视频信号,提取每帧图像中人脸区域;在提取的人脸区域提取嘴唇部分;提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;步骤2,将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、插入、替换的代价,计算如下,若min(i,j)=0,LX,Y(m,n)=max(i,j),否则LX,Y(m,n)=minLX,Y(i-1,j)+DelLX,Y(i,j-1)+InsLX,Y(i-1,j-1)+0xi=yjsubotherwise]]>其中,xi表示音频聚类结果,yj表示视频聚类结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:胡瑞敏王瑾梁超王晓晨
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1