一种基于深度神经网络的电力调度语音识别方法技术

技术编号:38756894 阅读:7 留言:0更新日期:2023-09-10 09:42
本发明专利技术公开了一种基于深度神经网络的电力调度语音识别方法。针对电力调度专用术语以及某区域电网习惯调度用语,建立了电力调度语音识别基础语料库。通过应用深度神经网络

【技术实现步骤摘要】
一种基于深度神经网络的电力调度语音识别方法


[0001]本专利技术涉及一种语音识别技术,尤其涉及一种电力调度中语音识别方法,更具体地说,涉及一种基于深度神经网络的电力调度语音识别方法。

技术介绍

[0002]随着泛在电力物联网的大力建设,云大物移、人工智能等先进技术将在调度运行和智能电网调度控制系统中广泛应用。现阶段的调度运行和智能电网调度控制系统中仍采用传统的鼠标和键盘进行人机交互,操作繁琐。语音人机交互是人工智能领域的一项关键技术,是最自然、最有效的人机交互方式,该技术的应用有望对现有的人机交互方式带来革命性变革。而语音识别是语音人机交互的基础,准确的语音识别是正确人机交互的前提。
[0003]语音识别就是让机器识别和理解语音信号,进而转化为相应的文本或命令。2011年,微软基于深度神经网络(deep neural network,DNN)的语音识别研究取得成果,打破了传统的基于高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔科夫模型(Hidden Markov Model,HMM)的语音识别框架,在大词汇量、连续语音识别任务上获得了显著的性能提升。2011年以来,微软研究院、谷歌和百度的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域10多年来最大的突破性进展。
[0004]为此,在DNN已经在语音识别领域显示出显著优势的背景下,本专利技术提出了一种基于DNN的电力调度语音识别方法。针对电力调度专用术语以及某区域电网习惯调度用语,建立了适用于电力调度语音识别的基础语料库,重点研究了基于DNN

HMM的声学模型训练技术。通过算例和实际应用分析表明,与传统GMM

HMM语音识别框架相比,所提方法显著提高了语音识别的准确率,在D5000和调度日志记录的初步应用结果表明所提方法能较好地满足调控运行人员的应用需求。

技术实现思路

[0005]本专利技术的目的是基于DNN

HMM,提出一种电力调度语音识别方法,在准确的语音识别的基础上,尽可能地满足调控运行人员的应用需求。为了实现该目的,本专利技术所采用的步骤是:
[0006]步骤1:进行数据采集和预处理,数据采集主要是制作文本数据和录音。数据预处理主要是处理和修正文本和音频数据,使得文本和音频一一对应,并且打上相应的序列标签,得到准确对应的拼音序列和音素序列;
[0007]步骤2:进行DNN声学模型训练,语音识别中需要分析声音,首先需对声音分帧,即把声音切开成一小段一小段,每小段为一帧;
[0008]步骤3:进行端点检测,在进行语音识别之前,去除音频中的空白部分以及噪音部分的音频,甄别有效语音和无效语音信号,去除无效语音信号;
[0009]步骤4:根据训练完成的DNN模型,得到电力调度语音识别方法。
[0010]进一步的,所述步骤2包括如下具体步骤:
[0011]步骤2

1:预训练过程,使用自下而上的非监督学习,即从底层开始,一层一层地往顶层训练,采用无标定数据或有标定数据,分层训练各层数据,这一步可以看作为一个无监督过程,是和传统神经网络区别最大的部分。此过程中将深度网络中的任意相邻两层看做一个限制波尔兹曼机。RBM被赋予一个能量函数E(v,h)
[0012][0013]其中,v和h分别是RBM相邻的两个节点输入,a和b分别是对应的系数,而w是v和h的连接权值矩阵。
[0014]预训练的目的就是使得RBM的两层所有节点的联合概率p(v,h)达到最大化。
[0015][0016]其中Z是对于v和h所有节点的归一化因子。
[0017]先用无标定数据训练每一层,训练时先学习第一层的参数,由于模型能力的限制和稀疏性的约束,得到的模型能够学习到数据本身的结构,从而得到比输入更具有表征的能力;在学习到k

1层后,将k

1的输出作为第k层的输入,训练第k层,由此分别得到各层的参数。
[0018]步骤2

2:监督性调优过程,使用自上而下的监督学习,训练带有标签数据,误差自顶向下传输,目标损失函数为
[0019][0020]其中label是真实标签数据,y是根据网络中的参数自底向上(前馈网络)计算得到的拟合标签。
[0021]基于第一步得到的各层参数进一步调整整个多层模型的参数,这一步是一个有监督训练的过程;由于此过程的初始参数不是随机初始化,而是由第一步预训练中通过学习RBM得到的,因而这个初值更接近全局最优,从而能够得到更好的效果。所以深度学习的效果很大程度上决定于第一步参数学习的过程。模型训练的目的是为了让拟合标签最大程度地逼近真实标签,即使得损失函数最小化。
[0022]进一步的,所述步骤3包括如下具体步骤:
[0023]步骤3

1:本文采用简单有效且鲁棒的自适应子带功率谱熵算法,该算法可以通过子波的自适应,使得每一个相关帧的子波数和设计都有所差异;
[0024]步骤3

2:通过对子带功率谱熵参数的自适应调整,选取16个子带、频谱为16kHz、能量不超过该帧总能量的90%的子带为有效音频段,此时能够较好地消除噪声对端点的影响。
附图说明
[0025]图1是本专利技术提出的一种基于深度神经网络的电力调度语音识别方法的基本框架流程图;
[0026]图2是本专利技术采用的声学模型训练流程图;
[0027]图3是本专利技术采用的断点检测示意图;
[0028]图4是本专利技术实现电力调度语音识别的流程图;
具体实施方式
[0029]下面结合附图和实例对本专利技术作进一步详细描述。
[0030]本专利技术提出的一种基于深度神经网络的电力调度语音识别方法的基本框架流程图如附图1所示。具体包括以下步骤:
[0031]步骤1:进行数据采集和预处理,数据采集主要是制作文本数据和录音。数据预处理主要是处理和修正文本和音频数据,使得文本和音频一一对应,并且打上相应的序列标签,得到准确对应的拼音序列和音素序列;
[0032]步骤2:进行DNN声学模型训练,语音识别中需要分析声音,首先需对声音分帧,即把声音切开成一小段一小段,每小段为一帧;
[0033]步骤2

1:预训练过程,使用自下而上的非监督学习,即从底层开始,一层一层地往顶层训练,采用无标定数据或有标定数据,分层训练各层数据,这一步可以看作为一个无监督过程,是和传统神经网络区别最大的部分。此过程中将深度网络中的任意相邻两层看做一个限制波尔兹曼机。RBM被赋予一个能量函数E(v,h)
[0034]E(v,h)=

av

bh

v

wh
[0035]其中,v和h分别是RBM相邻的两个节点输入,a和b分别是对应的系数,而w是v和h的连本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的电力调度语音识别方法,具体包括以下步骤:步骤1:进行数据采集和预处理,数据采集主要是制作文本数据和录音,数据预处理主要是处理和修正文本和音频数据,使得文本和音频一一对应,并且打上相应的序列标签,得到准确对应的拼音序列和音素序列;步骤2:进行DNN声学模型训练,语音识别中需要分析声音,首先需对声音分帧,即把声音切开成一小段一小段,每小段为一帧;步骤3:进行端点检测,在进行语音识别之前,去除音频中的空白部分以及噪音部分的音频,甄别有效语音和无效语音信号,去除无效语音信号;步骤4:根据训练完成的DNN模型,得到电力调度语音识别方法;进一步的,所述步骤2包括如下具体步骤:步骤2

1:预训练过程,使用自下而上的非监督学习,即从底层开始,一层一层地往顶层训练,采用无标定数据或有标定数据,分层训练各层数据,这一步可以看作为一个无监督过程,是和传统神经网络区别最大的部分,此过程中将深度网络中的任意相邻两层看做一个限制波尔兹曼机,RBM被赋予一个能量函数E(v,h)E(v,h)=

av

bh

v'wh(1)其中,v和h分别是RBM相邻的两个节点输入,a和b分别是对应的系数,而w是v和h的连接权值矩阵;预训练的目的就是使得RBM的两层所有节点的联合概率p(v,h)达到最大化;其中Z是对于v和h所有节点的归一化因子;先用无标定数据训...

【专利技术属性】
技术研发人员:符新月黄增周怡刘宇郭心雨
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1