语音识别方法及系统技术方案

技术编号：19429829 阅读：43 留言：0更新日期：2018-11-14 11:30

一种语言识别方法及系统，其通过用户输入的特定的语音信号和相应的期望识别结果而建立特定人声学数据库，从而使得下次进行语音识别时，可通过特定人声学数据库和非特定人声学数据库两种数据库进行模式匹配，从而确定出最佳匹配于待识别语音信号的识别结果。由于特定人声学数据库是由特定用户建立的，因而其更符合用户的语音习惯，因此对于特定人而言，其识别准确度将大大提高。本发明专利技术的语音识别方法，不仅可对非特定人输入的语音信号进行准确的识别，也可对特定人输入的语音信号进行准确识别，从而利于发音不标准、发音带有特定口音的用户进行使用，扩大语音识别的应用范围，提高语音识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法及系统
本专利技术涉及语音识别，特别涉及一种面向特定人和非特定人的语音识别方法及系统。
技术介绍
语音识别技术是通过机器的识别和理解过程将人发出的声音、字节或短语转换成相应的文字或符号，或者给出响应的一种信息技术。随着信息技术的飞速发展，语音识别技术已经广泛应用于人们的日常生活中。例如，使用终端设备时，采用语音识别技术可以通过输入语音的方式方便地在终端设备中输入信息。语音识别技术的本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果输出。现有的语音识别技术采用的识别方法有多种，例如模型匹配法、概率模型法等。目前业界普遍采用的是概率模型法语音识别技术。概率模型法语音识别技术，是通过云端对大量的不同用户输入的语音进行声学训练，而得到一个通用的声学模型，根据所述通用的声学模型及语音模型将待识别的语音信号解码为文本输出。这种识别方法，主要是针对非特定人而言，其可对大部分人的语音进行识别，但是，由于其是通用的声学模型，当用户发音不够标准，或者带有地方口音时，这种通用的声学模型便无法准确的进行匹配计算，从而导致其识别结果准确度降低，不利于特定用户，尤其是发音不标准，有地方口音的用户进行使用。
技术实现思路
本专利技术旨在解决上述问题，而提供一种可提高语音识别准确度，既可对非特定人进行准确的语音识别，也可对特定人进行准确的语音识别的语音识别方法及装置。为实现上述目的，本专利技术提供了一种语音识别方法，其特征在于，识别时，其包括：S1、接收用户输入的待识别语音信号，并从输入的待识别语音信号中提取出...

【技术保护点】
1.一种语音识别方法，其特征在于，识别时，其包括：S1、接收用户输入的待识别语音信号，并从输入的待识别语音信号中提取出可表征该待识别语音信号的声学特征；S2、获取特定人声学数据库，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果；若该最佳匹配的识别结果满足预设条件，则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出；若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件，则获取非特定人声学数据库，将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果，并将该识别结果作为该待识别语音信号的最终识别结果进行输出；或，获取非特定人声学数据库，将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果；若该最佳匹配的识别结果满足预设条件，则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出；若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件，则获取特定人声学数据库，将提取的待识别语音信号的声学特征与...

【技术特征摘要】
1.一种语音识别方法，其特征在于，识别时，其包括：S1、接收用户输入的待识别语音信号，并从输入的待识别语音信号中提取出可表征该待识别语音信号的声学特征；S2、获取特定人声学数据库，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果；若该最佳匹配的识别结果满足预设条件，则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出；若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件，则获取非特定人声学数据库，将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果，并将该识别结果作为该待识别语音信号的最终识别结果进行输出；或，获取非特定人声学数据库，将提取的待识别语音信号的声学特征与非特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果；若该最佳匹配的识别结果满足预设条件，则将该最佳匹配的识别结果作为该待识别语音信号的最终识别结果进行输出；若无最佳匹配的识别结果或该最佳匹配的识别结果不满足预设条件，则获取特定人声学数据库，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配，寻找最佳匹配于该待识别语音信号的识别结果，并将该识别结果作为该待识别语音信号的最终识别结果进行输出；或，获取非特定人声学数据库和特定人声学数据库，将提取的待识别语音信号的声学特征与非特定人声学数据库和特定人声学数据库进行模式匹配，寻找非特定人声学数据库和特定人声学数据库中最佳匹配于该待识别语音信号的识别结果或满足预设条件的识别结果，并将该识别结果作为该待识别语音信号的最终识别结果进行输出。2.如权利要求1所述的语音识别方法，其特征在于，识别前，可选的，还包括以下步骤：S01、预先接收用户输入的语音信号和用户定义的与该输入的语音信号相对应的期望识别结果；S02、从输入的语音信号中提取出可表征该语音信号的声学特征；S03、将用户输入的语音信号和/或提取出的声学特征与所述期望识别结果建立映射关系，以建立或更新所述特定人声学数据库。3.如权利要求1所述的语音识别方法，其特征在于，识别后，若输出的最终识别结果不符合用户的期望，则：S31、提供输入入口供用户输入与该待识别语音信号相对应的期望识别结果；S32、将该期望识别结果与所述待识别语音信号和/或声学特征建立映射关系以更新所述特定人声学数据库。4.如权利要求2或3所述的语音识别方法，其特征在于，按以下规则建立或更新所述特定人声学数据库：将期望识别结果与相应的语音信号和/或该语音信号的声学特征整体建立映射，使一项语音信号和/或该语音信号的声学特征对应一项期望识别结果；将所述语音信号和/或该语音信号的声学特征与对应的期望识别结果更新至所述特定人声学数据库中。5.如权利要求2或3所述的语音识别方法，其特征在于，按以下规则更新所述特定人声学数据库：将期望识别结果以语音单元进行划分，为每个含有语音单元的发音按照声学建模方式建立声学模型；将建立的各个声学模型及相应的语音单元更新至所述特定人声学数据库中。6.如权利要求2或3所述的语音识别方法，其特征在于，按以下规则更新所述特定人声学数据库：将期望识别结果与相应的语音信号和/或该语音信号的声学特征整体建立映射，使一项语音信号和/或该语音信号的声学特征对应一项期望识别结果；并将期望识别结果以语音单元进行划分，为每个含有语音单元的发音按照声学建模方式建立声学模型；将所述语音信号和/或该语音信号的声学特征与对应的期望识别结果及建立的各个声学模型与相应的语音单元更新至所述特定人声学数据库中。7.如权利要求4所述的语音识别方法，其特征在于，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时，将待识别语音信号的声学特征与特定人声学数据库中的声学特征进行比较，确定出最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果，并将该期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。8.如权利要求5所述的语音识别方法，其特征在于，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时，将待识别语音信号的声学特征与特定人声学数据库中的声学模型进行比较，确定出最佳匹配于待识别语音信号的声学特征的声学模型序列，并将该声学模型序列所对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。9.如权利要求6所述的语音识别方法，其特征在于，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时：将提取的待识别语音信号的声学特征与特定人声学数据库中的声学特征数据进行比较，寻找最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果；若该最佳匹配的期望识别结果满足预设条件，则将该最佳匹配的期望识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果；若无最佳匹配的期望识别结果数据，或该最佳匹配的期望识别结果数据不满足预设条件，则将提取的待识别语音信号的声学特征与特定人声学数据库中的声学模型进行模式匹配，确定出最佳匹配于该声学特征的声学模型序列，并将该声学模型序列所对应的结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。10.如权利要求6所述的语音识别方法，其特征在于，将提取的待识别语音信号的声学特征与特定人声学数据库进行模式匹配时：将提取的待识别语音信号的声学特征与特定人声学数据库中的声学特征数据及声学模型进行比较，寻找最佳匹配于该待识别语音信号的声学特征的声学特征所对应的期望识别结果及最佳匹配于该声学特征的声学模型序列；根据预设条件确定出最佳匹配的识别结果作为从特定人声学数据库中确定出的最佳匹配的识别结果。11.如权利要求5所述的语音识别方法，其特征在于，所述语音单元包括音素、音节、词、短语、句子中的一种或多种。12.如权利要求1所述的语音识别方法，其特征在于，输出最终识别结果后，则：获取基于该识别结果的反馈；根据该反馈而更新所述特定人声学数据库。13.如权利要求12所述的语音识别方法，其特征在于，所述反馈包括用户主动输入的反馈、系统根据用户的输入行为进行自动判断而产生的反馈中的一种或多种。14.如权利要求13所述的语音识别方法，其特征在于，所述用户的输入行为包括输入次数、输入时间间隔、输入语音的语气语调、输入语音的声音强弱、输入语音的语速、前后输入行为对应的...

【专利技术属性】
技术研发人员：任宝刚，
申请(专利权)人：有爱科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人