一种交互式语音识别系统和方法技术方案

技术编号：4086708 阅读：283 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种交互式语音识别系统，包括：声学模型和语言模型选择模块，用于根据待识别对象信息，为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型；语音语句提取模块，用于将整段语音信号切分成若干个语音语句并提取出来，送至语音识别模块；语音识别模块，用于对语音语句提取模块提取后得到的语音语句进行识别，并输出中间识别结果；字候选生成和错误修正模块，用于对所述识别中间结果进行处理生成候选集，再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果；交互模块，用于将用户输入的数据发送给声学模型和语言模型选择模块，以及向用户反馈所述字候选生成和错误修正模块的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别
，特别是涉及。
技术介绍
目前面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而，由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制，面向真实场景的大词汇量连续语音识别系统的性能远远无法满足实际应用要求。在已有的语音识别系统中，已经出现了一些交互技术，主要是错误纠正技术，即在一句话识别后由说话人对识别结果中的错误进行纠正。早期的系统可同时提供多种交互方式，包括单词重新发音(re-speaking)，单词拼写(spelling)，键盘输入、手写输入等。近期语音识别系统中主要采用候选选择修正技术，系统对每个单词给出多个候选，并提供相应的交互界面，允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该系统针对无噪声的朗读语音，可以达到实时应用并能够修正大部分识别错误。总的来说，现有语音识别系统中的交互技术多数集中在对识别结果的修正上，缺乏利用多种交互手段，以及利用交互信息进行自动学习的相关系统。在语音识别技术中，存在一种识别中的自动学习技术，称作模型自适应技术。模型自适应技术又可分为声学模型自适应和语言模型自适应。语音识别系统中的声学模型是一种估计某种声学信号对应某个发音的概率的模型。声学模型自适应，主要是说话人自适应，即根据不同的说话人的发音特点(包括其嗓音特点、发音习惯以及方言口音等)，对基础声学模型进行调整，以得到更适合当前说话人的模型。按照自适应训练过程有无监督，自适应可以分为(1)有监督自适应自适应训练过程中训练语音的内容对于系统是已知的；(2) 无监督自...

【技术保护点】
一种交互式语音识别系统，其特征在于，所述系统，包括：声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块，其中：所述声学模型和语言模型选择模块，用于在语音识别开始前，根据通过交互模块输入的待识别对象信息，为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型；所述语音语句提取模块，用于在语音识别过程中，将整段语音信号切分成若干个语音语句，然后再将每一个语音语句提取出来，送至语音识别模块；所述语音识别模块，用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程，对语音语句提取模块提取后得到的语音语句进行识别，并输出中间识别结果；所述字候选生成和错误修正模块，用于根据汉语的语言特点，对所述识别中间结果进行处理生成候选集，再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果；所述交互模块，用于将用户输入的数据发送给所述声学模型和语言模型选择模块，以及向用户反馈所述字候选生成和错误修正模块的识别结果。

【技术特征摘要】
一种交互式语音识别系统，其特征在于，所述系统，包括声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块，其中所述声学模型和语言模型选择模块，用于在语音识别开始前，根据通过交互模块输入的待识别对象信息，为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型；所述语音语句提取模块，用于在语音识别过程中，将整段语音信号切分成若干个语音语句，然后再将每一个语音语句提取出来，送至语音识别模块；所述语音识别模块，用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程，对语音语句提取模块提取后得到的语音语句进行识别，并输出中间识别结果；所述字候选生成和错误修正模块，用于根据汉语的语言特点，对所述识别中间结果进行处理生成候选集，再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果；所述交互模块，用于将用户输入的数据发送给所述声学模型和语言模型选择模块，以及向用户反馈所述字候选生成和错误修正模块的识别结果。2.根据权利要求1所述的交互式语音识别系统，其特征在于，所述系统，包括声学模型和语言模型自适应模块，用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应，并保存自适应后的声学模型和语言模型。3.根据权利要求1所述的交互式语音识别系统，其特征在于，对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境，所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。4.根据权利要求1所述的交互式语音识别系统，其特征在于，对于特定的识别对象，通过向所述交互模块输入该对象的姓名，所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。5.根据权利要求1所述的交互式语音识别系统，其特征在于，在识别过程中当待识别对象发生切换时，通过所述交互模块指示所切换到的当前待识别对象，所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。6.根据权利要求1所述的交互式语音识别系统，其特征在于，所述语音信号既可以是预先录好的音频文件，也可以是实时的语音信号；对于音频文件，采用端点检测方法对音频文件进行端点检测提取所有的语音语句；对于实时的语音信号，通过实时地采集说话人语音，并对采集到的语音进行端点检测提取语音语句。7.根据权利要求6所述的交互式语音识别系统，其特征在于，对于实时的语音信号进行实时的识别，采用分段采集和缓冲池的方法，每采集一段固定长的音频就把它放到缓冲池中，同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测，音频采集与端点检测以同步的方式访问缓冲池。8.根据权利要求7所述的交互式语音识别系统，其特征在于，所述固定长的音频的长度值为3秒。9.根据权利要求1所述的交互式语音识别系统，其特征在于，所述中间识别结果是词网格，是一个定向无环图，它包含大量识别过程中产生的词假设，并用相应的弧及相关的似然度得分来表示。10.根据权利要求9所述的交互式语音识别系统，其特征在于，所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络，对该对齐网络按字切分得到字候选，再从所述字候选列中查找正确的字来修正识别错误，或者根据输入的正确数据来修正识别错误。11.根据权利要求2所述的交互式语音识别系统，其特征在于，所述声学模型和语言模型自适应模块，利用收集到的语音语料和对应的修正后识别结果，为每个发言者所对应的声学模型作有监督声学模型自适应，该自适应分为两种在线自适应，当收集到的任何发言者的语音语料超过一定数量时，就为其对应的声学模型作有监督自适应；离线自适应，在所有识别工作结束后，为每个发言者所对应的声学模型作有监督声学模型自适应；同样，利用收集到的所有发言者的修正后识别结果，对语言模型进行有监督自适应，该自适应也分为两种在线自适应，当收集到的所有修正后识别结果超过一定数量时，就为语言模型作有监督自适应；离线自适应，在所有识别工作结束后，为语言模型作有监督声学模型自适应。12.根据权利要求2所述的交互式语音识别系统，其特征在于，当自适应结束后，所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程，并关闭自适应前声学模型和语言模型所对应的识别线程。13.一种交互式...

【专利技术属性】
技术研发人员：李新辉，王向东，钱跃良，林守勋，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人