当前位置: 首页 > 专利查询>中南大学专利>正文

一种综合性教学视频语音提取文本方法技术

技术编号:33857419 阅读:27 留言:0更新日期:2022-06-18 10:46
本发明专利技术公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别;然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于Conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。本发明专利技术针对教学视频的特性,通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取,同时引入Noisy Student Training半监督学习方法以使得模型可以在大规模无标签的数据下习通进行学。过实验证明,本文提出的方案可以有效地提高文本提取的效率与准确性。方案可以有效地提高文本提取的效率与准确性。方案可以有效地提高文本提取的效率与准确性。

【技术实现步骤摘要】
一种综合性教学视频语音提取文本方法


[0001]本专利技术涉及一种综合性教学视频语音提取文本方法。

技术介绍

[0002]20世纪90年代互联网初步兴起时,在线教育行业开始发展,其最大特点是创造了跨时空的学习方式。此类教育最初依靠录播传授教学内容,由教师录制视频,上传到互联网,学生在线观看或下载使用。直至如今,教学视频仍然作为在线教育的一个重要载体。
[0003]然而,视频是一种非结构化数据,传统的信息检索以文本为主要对象,这致使对教学视频内容的搜索和浏览非常困难,如何获取和管理视频数据以满足用户的搜索需求成为热点研究领域。在20世纪90年代提出的基于内容的视频分析(Content—Based Video Analysis,CBVA)通过对视频结构和语义内容的分析,从非结构化的视频数据中提取具有语义的内容单元作为检索对象。
[0004]语音识别是将语音信号转换为文本的过程。1952年Bell实验室的K.H.Davis等人依据对数字元音区域的共振波谱的研究,研发了世界上第一个能识别十个英文数字的Audry语音识别系统,标志着现代语音识别技术的开始
[2]。进入20世纪70年代,语音识别才有了实质性的进展,出现了逐渐成为主流的隐式马尔科夫模型技术(HMM)。20世纪80年代后期,语音识别研究解决了大词汇量、连续语音和非特定人这三大障碍,其中有代表性的是卡耐基梅隆大学研发的Sphinx系统。
[0005]但教学视频存在着以下特点:(1)音频来自视频流的分离:语音信号包含诸多复杂因素如背景噪音、麦克风质量、环境因素等,因此需要在语音预处理方面对音频进行良好的降噪,增强语音信号。(2)长音频和连续音频:教学视频往往包含大段连续的音频流,这就要求在调用识别内核前,先对该类音频文件进行流畅地“断句”,因此需要在端点检测方面多加优化。
[0006]当前,在很多教学视频中已经配有字幕供用户观看,目前也存在能够基于语音识别的自动生成字幕系统,以实现自动为视频添加字幕并同步定位。但仍然没有做到文本内容与视频流的分离,并且针对在线教育领域的应用还有所不足,缺乏一种自动化的方法获得教学视频内容文本。如果通过语音识别提取出教学视频数据,就能有效扩展信息检索的范围,实现资源共享,并且用户能根据文本片段定位到视频片段,一定程度上避免了加载视频寻找教学内容。

技术实现思路

[0007]为了解决目前没有能够实现自动化提取教学视频数据文本内容的技术问题,本专利技术提供一种能够从教学视频的音频流中提取文本的综合解决方案。
[0008]为了实现上述技术目的,本专利技术的技术方案是,
[0009]一种综合性教学视频语音提取方法,包括以下步骤:
[0010]步骤1,基于训练过的CLDNN即卷积

LSTM

全连接神经网络模型来对视频中的语音
进行识别,其中CLDNN模型是基于CLDNN_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM;
[0011]步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。
[0012]所述的方法,所述的步骤1中,注意力模块用于对输入的声学特征在隐藏特征层以最大、平均和标准差三种方式进行池化操作,以获得3个特征向量,然后连接3个特征向量并由4层的一维卷积层进行卷积,且将最后一个卷积层的输出由sigmoid型函数激活,从而获得时间相关特征和频率相关特征,最后求和并与隐藏特征图H合并,得到改进的隐藏特征图H

,注意力模块表达式为:
[0013][0014][0015][0016]其中,和均∈R
T
×1,并分别代表隐藏特征图H沿频率维度的最大、均值和标准差池化结果,维度为T
×
1,H
temp
为f
temp
的输出;和均∈R1×
D
,并分别代表特征图H沿时间维度隐藏的最大、均值和标准差池化结果,维度为1
×
D,H
freq
表示f
freq
的输出;f
temp
表示4层一维卷积操作,每层中卷积核的数量分别为3、5、5和1,卷积核大小为11
×
11;σ表示sigmoid函数,表示按元素求和;f
freq
表示和f
temp
层数和卷积核数量相同的卷积操作,但f
freq
的卷积核大小为21
×
21。
[0017]所述的方法,所述的步骤2中,双重对抗网络包括增强模型E、生成器G和判别器D;其中增强模型E为卷积循环网络,生成器和判别器均是基于DC

GAN架构建立,为增强模型E定义损失函数L
E
,为判别器D定义损失函数L
D(E)
,即L
D(E)
表示用于衡量E(x)和s之间差距的方式
[0018][0019][0020]s表示无噪声语音序列即干净语音,p
clean
对应增强模型产生的语音序列,s~p
clean
代表s服从p
clean
的序列分布,x表示有噪声的语音序列,E(x)表示经过增强模型生成的语音序列,p
noisy
表示有噪声语音序列,x~p
noisy
代表x服从p
noisy
的序列分布,为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;
[0021]损失函数L
D(G)
和G的损失函数L
G
分别为:
[0022][0023][0024]z是遵循标准高斯分布N(0,1)的d维随机向量,p
z
代表z的概率分布,G(z)为生成的语音序列,故L
D(G)
表示衡量G(z)和s之间差异的方式。
[0025]所述的方法,步骤1中的CLDNN模型训练过程包括:
[0026]向CLDNN模型中输入经40维对数梅尔滤波器组输出的具有25ms帧长和10ms移位长度的声学特征序列,且声学特征序列长度T为固定值,以构建用于训练的数据集合;同时以focal loss函数调整训练集中语音和非语音数据的平衡,其中focal loss函数l
FL
(y
t
)为:
[0027]l
FL
(y
t
)=

(1

y
t
)
γ
log(y
t
)
[0028]其中γ是可调参数,而y表示序列标签,y
t
为当前时刻序列对应的标签,且与交叉熵损失相同;执行过程中,将调制因子(1

y
t
)...

【技术保护点】

【技术特征摘要】
1.一种综合性教学视频语音提取方法,其特征在于,包括以下步骤:步骤1,基于训练过的CLDNN即卷积

LSTM

全连接神经网络模型来对视频中的语音进行识别,其中CLDNN模型是基于CLDNN_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM;步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,注意力模块用于对输入的声学特征在隐藏特征层以最大、平均和标准差三种方式进行池化操作,以获得3个特征向量,然后连接3个特征向量并由4层的一维卷积层进行卷积,且将最后一个卷积层的输出由sigmoid型函数激活,从而获得时间相关特征和频率相关特征,最后求和并与隐藏特征图H合并,得到改进的隐藏特征图H

,注意力模块表达式为:,注意力模块表达式为:,注意力模块表达式为:其中,和均∈R
T
×1,并分别代表隐藏特征图H沿频率维度的最大、均值和标准差池化结果,维度为T
×
1,H
temp
为f
temp
的输出;和均∈R1×
D
,并分别代表特征图H沿时间维度隐藏的最大、均值和标准差池化结果,维度为1
×
D,H
freq
表示f
freq
的输出;f
temp
表示4层一维卷积操作,每层中卷积核的数量分别为3、5、5和1,卷积核大小为11
×
11;σ表示sigmoid函数,

表示按元素求和;f
freq
表示和f
temp
层数和卷积核数量相同的卷积操作,但f
freq
的卷积核大小为21
×
21。3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,双重对抗网络包括增强模型E、生成器G和判别器D;其中增强模型E为卷积循环网络,生成器和判别器均是基于DC

GAN架构建立,为增强模型E定义损失函数L
E
,为判别器D定义损失函数L
D(E)
,即L
D(E)
表示用于衡量E(x)和s之间差距的方式量E(x)和s之间差距的方式s表示无噪声语音序列即干净语音,p
clean
对应增强模型产生的语音序列,s~p
clean
代表s服从p
clean
的序列分布,x表示有噪声的语音序列,E(x)表示经过增强模型生成的语音序列,p
noisy
表示有噪声语音序列,x~p
noisy
代表x服从p
noisy
的序列分布,为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;损失函数L
D(G)
和G的损失函数L
G
分别为:分别为:z是遵循标准高斯分布N(0,1)的d维随机向量,p
z
代表z的概率分布,G(z)为生成的语...

【专利技术属性】
技术研发人员:马慧敏李涵宇朱红求魏玮张忠腾南亦雄葛雨晴刘逸峰
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1