本发明专利技术公开了一种语音识别的口语文本生成方法,包括步骤S1:进行端点检测获得声音信号并对声音信号进行初步去噪;步骤S2:通过语音识别引擎将去噪后的声音信号转换为机器语言;步骤S3:通过语音识别模型与分离模型对机器语言联合训练;步骤S4:进行后端识别处理;步骤S5:生成口语文本;本发明专利技术有效解决了目前口语生成文本不够准确的问题,相较于普通的口语文本生成方法具有高准确性;更接近于人的口语叙述方式,可辨别性高;具有多种口语文本的生成,可供使用者选择,选择度高;进行自我学习,语义识别随使用时间稳定性和准确度均有提高。语义识别随使用时间稳定性和准确度均有提高。语义识别随使用时间稳定性和准确度均有提高。
【技术实现步骤摘要】
一种语音识别的口语文本生成方法
[0001]本专利技术涉及口语文本生成方式,尤其涉及一种语音识别的口语文本生成方法。
技术介绍
[0002]随着计算机技术和网络技术的发展和广泛应用,存在着很多需要进行语音识别的情况。一般来说,语言分为口语和书面语,当前情况下的语音识别系统多对书面语进行阐述或者而且,伴随着使用人员的范围增加,逐字识别的方法显然不适用于目前的网络环境,然而目前存在识别效率低。一般来说,口语比书面语更加依赖语言环境以及更难转换为机器语言。
[0003]现有的文本转换方法在将书面语转换为口语时,一般是直接在书面文本上添加了口语中常见的副语言信息,转换后的口语化文本并不符合语言的表达习惯,有时在书面文本中出现了口语化的副语言信息反而会让用户感到生硬,拗口,表达不流畅等感觉,影响用户体验。
[0004]现有的文本转换方式对文本并没有进行系统化的学习,只是机械性地增加口语化的阐述方式。
[0005]对于真正口语的情况来说显得不够真实。并且进行语义转换的同时也存在一定障碍。
[0006]例如,一种在中国专利文献上公开的“将书面文本转换为口语文本的方法及系统”,其公告号“CN201710987858.5”,包括一种将书面文本转换为口语文本的方法及系统,通过副词等方式对书面语的语言习惯进行训练然后转换为口语文本,缺少对整体性以及语言习惯的考究,不够自然准确。
技术实现思路
[0007]本专利技术主要解决现有的语音识别的口语文本生成方式中存在的精确度不够以及对于现有的口语文本识别能力的欠缺的补偿;提供一种具有语音语义学习能力的基于语音识别的口语文本生成方式,降低了语音识别中对于口语文本的错误识别,提高了口语文本生成的准确度以及精确度。
[0008]本专利技术的上述技术方案主要是通过下述技术方案得以解决的:语音识别的口语文本生成方法,包括以下步骤:步骤S1:进行端点检测获得声音信号并对声音信号进行初步去噪;步骤S2:通过语音识别引擎将去噪后的声音信号转换为机器语言;步骤S3:通过语音识别模型与分离模型对机器语言联合训练;步骤S4:进行后端识别处理;步骤S5:生成口语文本。
[0009]先进行去噪以及端点检测得到一条完整的语音信息,通过声音信号与机械语言的转换得到一串完整的包含声音信号的机械语言。再通过语音识别模型与分离模型的综合训
练提高机械语言转换文本的准确性以及效率。得到一段较为完整的口语文本。
[0010]最后通过后端识别处理得到完整的口语文本,实现语音识别的口语文本生成。
[0011]口语化和篇章级的语言模型处理技术,即通过借鉴语音识别处理噪声问题采用加噪训练的思想,即在书面语的基础上自动引入回读、倒装、语气词等口语“噪声”现象,从而可自动生成海量口语语料,解决口语和书面语之间的不匹配问题。收集部分口语文本和书面文本语料;使用基Encoder
‑
Decoder(编码
‑
解码)的神经网络框架建模书面语文本与口语文本之间的对应关系,从而实现了口语文本的自动生成。另外,根据语音识别的解码结果自动进行关键信息抽取,实时进行语料搜索和后处理,用解码结果和搜索到的语料形成特定语音相关的语言模型,从而进一步提高语音转录的准确率;解码器的动作是把音频的特征值抽取后,通过解码器进行声学模型的技术和语言模型的计算,给出最终的识别文字,随后解码器是对通用的标准中文构建的,识别结果中有些后处理的构建,比如语义、关键词优化等可以影响解码器的工作,自适应的过程是通过语义,关键词优化等对解码器进行二次优化,再输出最终的结果。
[0012]本专利技术通过大量的语言样本,进行训练,得到口语化的消息以及变形,涵盖了不同的方言以及不同类型的背景噪声的海量语音数据,通过先进的区分性训练进行语音建模,使语音识别器在复杂应用环境下均具有良好的效果表现。包括中文标点智能预测,文件格式智能转换,前端语音处理,端点检测。通过层层步骤对于转换完成的机械语言进行检测纠正。提高口语文本生成的速度以及准确性。中文标点智能预测能够使用超大规模的语言模型,对识别结果语句智能预测其对话语境,提供智能断句和标点符号的预测。文件格式智能转化,对结果中出现的数字、日期、时间等内容格式格式化为规整的文本。前端语音处理,即用信号处理的方法对说话人语音进行检测,降噪等预处理,以便得到最适合识别引擎处理的语音。其主要包括端点检测,噪音消除等。
[0013]作为优选,所述的步骤S1包括以下步骤:步骤S11:对输入的音频流进行分析,确定语音的起始和终止的位置进行语音识别。
[0014]步骤S12:识别截取到的音频并进行初步噪音去除。
[0015]端点检测是对输入的音频流进行分析,确定用户说话的起始和终止的处理过程。通过对声音强度进行检测,当声强到达一定阈值则启动。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。能够获得一串完整的语音信息,这种方式能有效切断语音信息中的无效成分。提高输入输出的效率。在实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在电话语音通话过程中也难以避免会有一定的噪声,语音识别通过学习训练降噪,提升识别时的效果。
[0016]作为优选,所述步骤S3包括以下步骤:步骤S31:深度全序列卷积神经网络,使用大量的卷积层对整句语音进行建模。
[0017]步骤S32:进行word
‑
embedding语义建模,筛选语义不顺语句。
[0018]步骤S33:采用加噪训练方式引入回读等口语噪音形式,构建书面语与口语文本对应关系从而加强口语文本的生成。深度全序列卷积神经网络(DFCNN),使用大量的卷积层直接对整句语音信号进行建模。在输入端DFCNN直接将语谱图作为输入,相比其他以传统语音
特征作为输入的语音识别框架相比具有天然的优势;在模型结构上,借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多的卷积池化层对,从而可以看到非常长的历史和未来信息,通过基于word
‑
embedding(词嵌入) 的语义模型建模和语言模型区分性训练研究,进一步和语音识别后处理模块结合,以筛选掉识别结果中语义不通顺的语句,提升识别结果可读性。
[0019]作为优选,在语音识别模型与分离模型的联合训练中采用了在语音识别神经网络模型与唇语识别神经网络模型的过程中进行多模态语音识别与分离的联合训练方法。通过将音频特征输入同等频率语音帧特征向量序列,在特征提取模块的时间维度下采样四倍得到多维的语音向量,再与图像向量进行融合得到一个小的融合神经网络,通过分析完成联合训练效果。该方法能够有效分离图形以及声音信号,得到更加纯粹的声音信号,具有更加高效性。
[0020]作为优选,所述步骤S33中的构建书面语与口语文本对应关系为:通过在书面语上手动引入回读、倒装、语气词等口语噪声本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别的口语文本生成方法,其特征在于,包括以下步骤:步骤S1:进行端点检测获得声音信号并对声音信号进行初步去噪;步骤S2:通过语音识别引擎将去噪后的声音信号转换为机器语言;步骤S3:通过语音识别模型与分离模型对机器语言联合训练;步骤S4:进行后端识别处理;步骤S5:生成口语文本。2.根据权利要求1所述的一种语音识别的口语文本生成方法,其特征在于,所述步骤S1包括以下步骤:步骤S11:对输入的音频流进行分析,确定语音的起始和终止的位置进行语音识别;步骤S12:识别语音中的噪声并进行消除。3.根据权利要求1所述的一种语音识别的口语文本生成方法,其特征在于,所述步骤3包括以下步骤:步骤S31:深度全序列卷积神经网络,使用多个卷积层对整句语音进行建模;步骤S32:进行word
‑
embedding语义建模,筛选语义不顺语句;步骤S33:采用加噪训练方式引入口语噪音形式,构建书面语与口语文本对应关系。4.根据权利要求3所述的一种语音识别的口语文本生成方法,其特征在于,所述步骤S33中的构建书面语与口语文本对应关系为:通过在书面语上手动引入口语噪声,所述口语噪声包括回读、倒装、语气词、强调以及反复,生成海量的...
【专利技术属性】
技术研发人员:沈红峰,方景辉,陈超,姚强,龚利武,张健,潘白浪,张炜,施文杰,万家建,顾一星,朱晓晨,薛天琛,陆夕蒙,张嘉辉,张桂玲,黄悦华,
申请(专利权)人:平湖市通用电气安装有限公司国网浙江省电力有限公司嘉兴供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。