一种交互式语音识别系统和方法技术方案

技术编号:4086708 阅读:273 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。

【技术实现步骤摘要】

本专利技术涉及语音识别
,特别是涉及。
技术介绍
目前面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而,由于受到 背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,面向真实场景的大词 汇量连续语音识别系统的性能远远无法满足实际应用要求。在已有的语音识别系统中,已经出现了一些交互技术,主要是错误纠正技术,即在 一句话识别后由说话人对识别结果中的错误进行纠正。早期的系统可同时提供多种交互方 式,包括单词重新发音(re-speaking),单词拼写(spelling),键盘输入、手写输入等。近期 语音识别系统中主要采用候选选择修正技术,系统对每个单词给出多个候选,并提供相应 的交互界面,允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该 系统针对无噪声的朗读语音,可以达到实时应用并能够修正大部分识别错误。总的来说,现 有语音识别系统中的交互技术多数集中在对识别结果的修正上,缺乏利用多种交互手段, 以及利用交互信息进行自动学习的相关系统。在语音识别技术中,存在一种识别中的自动学习技术,称作模型自适应技术。模型 自适应技术又可分为声学模型自适应和语言模型自适应。语音识别系统中的声学模型是一 种估计某种声学信号对应某个发音的概率的模型。声学模型自适应,主要是说话人自适应, 即根据不同的说话人的发音特点(包括其嗓音特点、发音习惯以及方言口音等),对基础声 学模型进行调整,以得到更适合当前说话人的模型。按照自适应训练过程有无监督,自适应 可以分为(1)有监督自适应自适应训练过程中训练语音的内容对于系统是已知的;(2) 无监督自适应自适应训练过程中训练语音的内容对于系统是未知的,需要由系统通过识 别获得。显然,有监督自适应由于语音与文本信息是已知的,因此对声学模型的自适应训练 更为可靠,其性能要远远优于无监督自适应,特别是在发音不够标准的情况下。但由于很难 在识别的同时获得准确的文本信息,因此现有语音识别系统中的声学模型自适应都以无监 督自适应为主。语音识别系统中的语言模型是一种估计某种发音对应某个具体字或词的概率的 模型。语言模型自适应的基本思想是,根据不断变化的应用环境,不断调整语言模型中各种 语言现象出现的概率,以适应不同应用环境各自的特征。与声学模型自适应类似,可根据语 料的可靠性将语言模型自适应分为有监督与无监督自适应,前者采用的为可靠的文本,而 后者则动态的将系统识别结果作为自适应语料。显然,有监督自适应的效果要优于无监督 自适应,但由于一般的语音识别应用在识别过程中很难得到标准答案,因此绝大多数系统 都采用无监督自适应。另外,对于同时存在多个说话人的语音,如广播语音和会议语音,语音识别系统在 做语音识别和自适应时还需要对说话人进行分割和跟踪,以保证自适应在同一个说话人的 语音上完成。现有的语音识别系统都是通过系统自动识别来对说话人进行分割和跟踪,这种识别不但消耗了大量的计算资源,而且其结果也不是很准确,错误的结果很可能导致系 统性能的恶化。
技术实现思路
本专利技术的目的在于提供。通过交互的方式,使得 语音识别系统输出的候选越来越准确。为实现本专利技术的目的而提供的一种交互式语音识别系统,所述系统,包括声学模 型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交 互模块,其中所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块 输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个 识别过程选择与之领域最相似的语言模型;所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个 语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启 一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结 果;所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结 果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识 别错误得到最终识别结果;所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模 块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。所述系统,包括声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别 结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模 型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过 程选择通用语言模型。对于特定的识别对象,通过向所述交互模块输入该对象的姓名,所述声学模型和 语言模型选择模块根据姓名为该对象选择特定的声学模型。在识别过程中当待识别对象发生切换时,通过所述交互模块指示所切换到的当前 待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别 对象所对应的识别线程进行识别。所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音 频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语 音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一 段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频 进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。6所述固定长的音频的长度值为3秒。所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的 词假设,并用相应的弧及相关的似然度得分来表示。所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对 该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或 者根据输入的正确数据来修正识别错误。所述声学模型和语言模型自适应模块,利用收集到的语音语料和对应的修正后识 别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种在 线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作 有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有 监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行 有监督自适应,该自适应也分为两种在线自适应,当收集到的所有修正后识别结果超过一 定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模 型作有监督声学模型自适应。当自适应结束后,所述语音识别模块为自适应得到的声学模型和语言模型开启新 的识别线程,并关闭自适应前声学模型和语言模型所对应的识别线程。为实现本专利技术的目的,还提供一种交互式语音识别方法,所述方法,包括下列步 骤步骤100.在语音识别开始前,通过交互模块输入能反映待识别对象发音特点的 信息和将主要讨论的主题信息;步骤200.根据所述输入信息,声学模型和语言模型选择模块为每个待识别对象 选择最匹配的声学模型和语言模型;步骤300.在语音识别过本文档来自技高网
...

【技术保护点】
一种交互式语音识别系统,其特征在于,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。

【技术特征摘要】
一种交互式语音识别系统,其特征在于,所述系统,包括声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。2.根据权利要求1所述的交互式语音识别系统,其特征在于,所述系统,包括声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别结果 对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。3.根据权利要求1所述的交互式语音识别系统,其特征在于,对于待识别对象不够稳 定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个 待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。4.根据权利要求1所述的交互式语音识别系统,其特征在于,对于特定的识别对象,通 过向所述交互模块输入该对象的姓名,所述声学模型和语言模型选择模块根据姓名为该对 象选择特定的声学模型。5.根据权利要求1所述的交互式语音识别系统,其特征在于,在识别过程中当待识别 对象发生切换时,通过所述交互模块指示所切换到的当前待识别对象,所述声学模型和语 言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识 别。6.根据权利要求1所述的交互式语音识别系统,其特征在于,所述语音信号既可以是 预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频 文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语 音,并对采集到的语音进行端点检测提取语音语句。7.根据权利要求6所述的交互式语音识别系统,其特征在于,对于实时的语音信号进 行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲 池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点 检测以同步的方式访问缓冲池。8.根据权利要求7所述的交互式语音识别系统,其特征在于,所述固定长的音频的长 度值为3秒。9.根据权利要求1所述的交互式语音识别系统,其特征在于,所述中间识别结果是词 网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。10.根据权利要求9所述的交互式语音识别系统,其特征在于,所述字候选生成和错 误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候 选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正 识别错误。11.根据权利要求2所述的交互式语音识别系统,其特征在于,所述声学模型和语言模 型自适应模块,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的 声学模型作有监督声学模型自适应,该自适应分为两种在线自适应,当收集到的任何发言 者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所 有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用 收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为 两种在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监 督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。12.根据权利要求2所述的交互式语音识别系统,其特征在于,当自适应结束后,所述 语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程,并关闭自适应前声 学模型和语言模型所对应的识别线程。13.一种交互式...

【专利技术属性】
技术研发人员:李新辉王向东钱跃良林守勋
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1