一种基于TTS的语音识别语料库生成方法及系统技术方案

技术编号:21303880 阅读:29 留言:0更新日期:2019-06-12 09:07
本发明专利技术公开了一种基于TTS的语音识别语料库生成方法,其特征在于,所述生成方法包括:向数据池导入原始语音数据;TTS转换器同时导入文字标注和TTS语音数据给数据池;数据池对其中的语音数据和文字标注进行分析和处理,生成语料;数据池导出语料,语料存进语料库并生成备份语料;语料库将备份语料的语音部分和文字标注部分分离,语音部分送回数据池,文字标注部分送回TTS转换器。本发明专利技术通过基于TTS的语音识别语料库生成方法及系统,使语料库的生成及更新不再靠人工添加语料,因其可以不间断工作提高了工作效率,减少了人工录音降低了成本,同时大大减轻了工作人员的工作压力。

A Method and System of Speech Recognition Corpus Generation Based on TTS

The invention discloses a speech recognition corpus generation method based on TTS, which is characterized by: importing original voice data into data pool; importing text annotation and TTS voice data into data pool simultaneously by TTS converter; analyzing and processing voice data and text annotation in data pool to generate corpus; exporting corpus from data pool and storing corpus into data pool. The corpus separates the voice part of the backup corpus from the text annotation part, sends the voice part back to the data pool, and sends the text annotation part back to the TTS converter. The method and system of generating speech recognition corpus based on TTS make the generation and update of corpus no longer depend on manual adding corpus, because it can work uninterruptedly, improve work efficiency, reduce the cost of manual recording, and greatly reduce the work pressure of staff.

【技术实现步骤摘要】
一种基于TTS的语音识别语料库生成方法及系统
本专利技术属于智能语音
,特别涉及一种基于TTS的语音识别语料库生成方法及系统。
技术介绍
语言是人类进行信息交流的最主要、最常用、最直接的方式。语音智能识别技术既计算机自动语音识别技术是实现人-机对话的一项重大突破,近年来发展十分迅速,其应用也逐步得到推广。语音识别技术的识别度跟其自身的语料库大小密切相关,语音识别时需要在其语料库中搜索到对应的语料,然后才能识别出语音的内容。一旦语料库过小,在进行语音识别时找不到对应的语料,自然就会识别不出语音的内容,导致识别度低。因此,人们都在尽最大的努力扩大语料库,以提高语音识别的识别度。目前,扩大语料库的办法都是人为手动去向语料库中添加语料,需要更新语料库时,就会聘请很多人,让这些人进行说话,然后将这些话录音下来,再将这些语音分别与对应的文字标注绑定在一起,形成语料,最后将这些语料存进语料库中。这样做有很多缺点,首先工作效率低,其次成本较高,最后当语料库更新频繁时会大大增加工作人员的工作量。
技术实现思路
针对上述问题,本专利技术提供了一种基于TTS的语音识别语料库生成方法及系统。一种基于TTS的语音识别语料库生成方法,所述生成方法包括:向数据池导入原始语音数据;TTS转换器同时导入文字标注和TTS语音数据给数据池;数据池对其中的语音数据和文字标注进行分析和处理,生成语料;数据池导出语料,语料存进语料库并生成备份语料;语料库将备份语料的语音部分和文字标注部分分离,语音部分送回数据池,文字标注部分送回TTS转换器。进一步地,所述数据池具有以下功能:接收外界语音数据;存储语音;改变数据池内语音的属性;将TTS语音与数据池内的语音匹配到一起;将文字标注绑定到数据池内的语音上。进一步地,所述TTS转换器同时导入到数据池的文字标注和TTS语音具有相同内容,所述TTS转换器同时导入到数据池的文字标注和TTS语音绑定在一起。进一步地,所述外界语音数据包括外界的录音和设备传输的语音,所述外界的录音需要提前经过噪音过滤处理,所述外界的录音或设备传输的语音需要不断更新。进一步地,所述语音的属性包括语速、语调。进一步地,所述TTS语音和所述文字标注为所述TTS转换器同时导入到所述数据池的TTS语音和文字标注。进一步地,所述TTS语音和匹配在一起的所述数据池内的语音具有相同内容,所述文字标注和绑定在一起的所述数据池内的语音具有相同内容。进一步地,所述语料为绑定文字标注的数据池语音。一种基于TTS的语音识别语料库生成系统,所述生成系统包括数据池模块、TTS模块、语料库模块:所述数据池模块,用于分析并处理数据池内的语音数据和文字标注;所述TTS模块,用于读取文字或文字标注,并将文字标注和TTS语音绑定在一起导入到数据池模块;所述语料库模块,用于语料存储、语料备份和循环。进一步地,所述数据池模块包括接收单元、语音存储单元、语音调节单元、匹配单元和绑定单元:所述接收单元,用于接收外界语音数据;所述语音存储单元,用于存储语音;所述语音调节单元,用于改变存储单元内语音的属性;所述匹配单元,用于将TTS语音与存储单元内的语音匹配到一起;所述绑定单元,用于将文字标注绑定到存储单元内的语音上。进一步地,所述语料库模块包括语料存储单元、语料备份单元和循环反馈单元:所述语料存储单元,用于存储语料;所述语料备份单元,用于备份语料;所述循环反馈单元,用于将备份语料的语音部分和文字标注部分分离,并将语音部分送回数据池模块,文字标注部分送回TTS模块。本专利技术通过基于TTS的语音识别语料库生成方法及系统,使语料库的生成及更新不再靠人工添加语料,因其可以不间断工作提高了工作效率,减少了人工录音降低了成本,同时大大减轻了工作人员的工作压力。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本专利技术实施例的基于TTS的语音识别语料库生成方法的流程图;图2示出了根据本专利技术实施例的基于TTS的语音识别语料库生成系统的结构图;图3示出了根据本专利技术实施例的文本处理算法流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种基于TTS的语音识别语料库生成方法及系统。示例性的,如图1示出了基于TTS的语音识别语料库生成方法。具体生成方法包括以下步骤:步骤一:向数据池导入原始语音数据。具体的,所述数据池具有以下功能:接收外界语音数据;进一步地,所述外界语音数据包括外界的录音和设备传输的语音,所述外界的录音需要提前经过噪音过滤处理,所述外界的录音或设备传输的语音需要不断更新。示例:外界语音数据可以是人们说出“你们大家好”被录音下来,也可以是设备传输过来的语音文件内容为“我们都很好”,而语音“你们大家好”被录音后需要进行噪音过滤处理,避免影响后期语音识别的精确度,然后“你们大家好”和“我们都很好”都会以语音数据的形式通过数据传输接口传输给数据池并存储。后期需要经常对数据池中的语音进行更新,即添加新的语音,添加的语音可以是相同属性不同内容的语音,也可以是不同属性不同内容的语音。存储语音;存储原始语音数据、TTS语音数据和循环反馈回来的语音数据。其中,TTS语音是通过TTS(TextToSpeech,文语转换)转换器将文字或文字标注转换成的语音,具体步骤如下:文本分析:对输入文本进行语言学分析,逐句进行词汇、语法和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等;语音合成:把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形;韵律处理:合成音质(QualityofSyntheticSpeech)是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率;自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然;连贯性用来评价合成语句是否流畅。示例1:对文本的处理。文本“你们大家好”,将文本“你们大家好”输入TTS转换器,TTS转换器对文本“你们大家好”进行分析,将文本拆成“你”、“们”、“大”、“家”、“好”五个字,每个字在文库中有对应的文字标注,其中“ni3”对应“你”,“men2”对应“们”,“da4”对应“大”,“jia1”对应“家”,“hao3”对应“好”,通过文字标注在语音合成库中提取相应的语音“你”、“们本文档来自技高网...

【技术保护点】
1.一种基于TTS的语音识别语料库生成方法,其特征在于,所述生成方法包括:向数据池导入原始语音数据;TTS转换器同时导入文字标注和TTS语音数据给数据池;数据池对其中的语音数据和文字标注进行分析和处理,生成语料;数据池导出语料,语料存进语料库并生成备份语料;语料库将备份语料的语音部分和文字标注部分分离,语音部分送回数据池,文字标注部分送回TTS转换器。

【技术特征摘要】
1.一种基于TTS的语音识别语料库生成方法,其特征在于,所述生成方法包括:向数据池导入原始语音数据;TTS转换器同时导入文字标注和TTS语音数据给数据池;数据池对其中的语音数据和文字标注进行分析和处理,生成语料;数据池导出语料,语料存进语料库并生成备份语料;语料库将备份语料的语音部分和文字标注部分分离,语音部分送回数据池,文字标注部分送回TTS转换器。2.根据权利要求1所述的生成方法,其特征在于,所述数据池具有以下功能:接收外界语音数据;存储语音;改变数据池内语音的属性;将TTS语音与数据池内的语音匹配到一起;将文字标注绑定到数据池内的语音上。3.根据权利要求1或2所述的生成方法,其特征在于,所述TTS转换器同时导入到数据池的文字标注和TTS语音具有相同内容,所述TTS转换器同时导入到数据池的文字标注和TTS语音绑定在一起。4.根据权利要求2所述的生成方法,其特征在于,所述外界语音数据包括外界的录音和设备传输的语音,所述外界的录音需要提前经过噪音过滤处理,所述外界的录音或设备传输的语音需要不断更新。5.根据权利要求2所述的生成方法,其特征在于,所述语音的属性包括语速、语调。6.根据权利要求2所述的生成方法,其特征在于,所述TTS语音和所述文字标注为所述TTS转换器同时导入到所述数据池的TTS语音和文字标注。7.根据权利要求2所述的生成方法,其...

【专利技术属性】
技术研发人员:虞焰兴徐勇
申请(专利权)人:安徽声讯信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1