改善语音识别准确性的方法和装置制造方法及图纸

技术编号:3047472 阅读:279 留言:0更新日期:2012-04-11 18:40
一个转换系统包括计算机、监视器和一个送话器。通过送话器,该系统的使用者提供输入语音,由该系统接收和转换。系统监视转换过程中转换后语音的准确性。该系统还确定转换后语音的准确性是否足够,如果不够则自动启动一语音识别改善工具和提醒使用者已启动了该工具。这一工具还可由使用者人工启动。识别问题类型由使用者或由系统自动辨识,而系统提供可能的解决步骤以使使用者能调节系统参数和修改使用者行为以缓解该识别问题。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的领域是连续语音识别的方法和装置。更具体地说,本专利技术涉及向使用者提供语音识别准确性控制的方法。当前存在的语音识别系统使一使用者能连续地将语音口授给送话器,然后由计算机将语音变换成文本,并把文本显示在计算机的监视器上。在一个设计成对词间无间歇语音进行解码的连续语音识别系统中,有理由预期将会发生解码错误并将由使用者去改正。往往是在一个特定的口授时段里连续地重复发生某一特定类型的错误。例如,系统可能重复地错认一个特定词,例如“and(和)”。先有技术的语音识别系统接收并基于各种系统参数和数据库来转换所收到的语音,例如音频电平、主题库、以及依赖于说话者的训练数据库等。在某些系统中,在系统上受过训练的使用者可能能确定正在发生哪一类识别准确性问题,并调节或改变各种参数或数据库以改善该使用者语音的识别准确性。然而许多使用者可能没有这种爱好或耐心去学习如何辨识识别准确性问题或在遇到这些问题时如何调节系统参数以便改进。此外,一些使用者宁愿不去监视语音识别期间产生的文本,固而可能不知道识别中正在发生问题。这两类使用者可能会变得受到了挫折因而决定不使用该系统。所需要的是这样一种转换口授的语音的方法和装置,它使使用者能容易地改变系统参数或使用者行为以改善系统的识别准确性。还需要一种转换口授的语音的方法和装置,它能识别何时在发生语音识别问题,并能协助使用者识别问题的具体类型。本专利技术包括一种转换语音的装置和方法,它接收输入语音,并把输入语音转换成转换后的语音,它包括文本格式的词的顺序列表。在转换过程中,该方法和装置监视转换后语音的准确性并确定转换后语音的准确性是否足够。如果准确性不够,则本方法和装置自动启动一个语音识别改善工具。使用这一语音识别改善工具,该方法和装置改善转换过程的准确性。本方法由一转换装置实现,该装置包括至少一个计算机、一个监视器和一个送话器。本方法能由一个机器执行,它执行机器可读存储器上存储的多个计算机程序代码段。本专利技术的一般目的是向转换系统使用者提供容易地改变系统参数和/或使用者行为的能力和信息,以改善该系统的识别能力。本专利技术的另一目的是自动地向使用者提供这种能力。附图说明图1显示根据本专利技术最佳实施例的语音识别系统的简化框图;图2显示根据本专利技术最佳实施例允许使用者能改善语音识别系统语音识别准确性的方法流程图;图3显示用于提供使用者和语音识别改善工具之间初始交互作用的显示屏示例;图4显示一个表的示例,它对多个可能的问题类型列出为缓解或消除那个问题所采取的一些可能的解决步骤;图5是协助使用者执行“记录词(Record Word)”解决步骤的显示屏示例;图6是协助使用者执行“问题词(Problem Word)”解决步骤的显示屏示例;图7是协助使用者执行“造成另一发音(Creating an AlternatePronunciation)”解决步骤的显示屏示例;图8是协助使用者执行“检验你的个人语音文件(Checking YourPersonal Speech File)”解决步骤的显示屏示例;图9是协助使用者执行“加到词汇表中(Add to Vocabulary)”解决步骤的显示屏示例;图10是协助使用者执行”启动主题(Activate Topic)”解决步骤的显示屏示例;图11是教育使用者适当调节系统参数和适当进行口授的小教程的显示屏示例;以及图12是协助使用者测试系统的识别能力的显示屏示例。图1显示根据本专利技术最佳实施例的语音识别系统的简化框图。语音识别系统100包括计算机102,如个人计算机或工作站,它有显示监视器104、鼠标106或其他指向装置,以及键盘108。系统100还包括用于向计算机102口授的送话器110以及用于向使用者提供声音反馈的扬声器112。计算机102特别装备了从送话器110获取声音信息所需要的接口。这种装备可存在于计算机母板上或子卡上,例如SOUNDBLASTER(TMCreative Labs),或通过其他手段。监视器104、鼠标106、键盘108和扬声器112构成用户接口,语音识别系统100的使用者能借助它启动、控制和监视转换过程。根据一个实施例,计算机102经由监视器104提供各种屏幕显示,以帮助使用者在一特定语音识别期间调节影响识别准确性的各种参数。将结合图2至图12详细描述转换系统100的操作。在操作过程中,由使用者经由送话器110提供语音输入,而由计算机102实现的解码器引擎(未画出)连续接收输入语音和建立文本输出,这文本输出显示在监视器104上。为了转换语音,解码器引擎从存储在计算机存储器(未画出)内的信息中调出数据,例如系统词汇、声音模型、以及基于语言的模型等。然后解码器引警完成各种操作,例如使声音输入与声音模型拟合,以建立输入语音的文本翻译。基于语言的模型提供关于一般词序的数据,从而引擎可以确定可能是哪些候选短语。这对于在包含语音上相似的词(例如“to”、“two”和“too”,或“there”、“their”和“they′re”)的词和短语之间进行选择是重要的。一旦由解码器引擎考虑了各种因素,则可由该引擎得到作为文本数据的文体。在解码了一些使用者语音输入后,或者由解码器引警,或者由某一应用,可通过用户接口(例如监视器104或扬声器112)把那个文本显示给使用者。在这一点,使用者可以检测语音识别过程中出现的问题,或者,如在一个最佳实施例中那样,系统可以检测该问题并通知使用者。使用图形用户界面(GUI),使用者能被引导完成调节各种系统参数或修改使用者行为,以改善语音识别准确性。图2是根据本专利技术最佳实施例允许使用者改善语音识别系统语音识别准确性的方法流程图。希望该方法由语音识别系统,如系统100(图1)来实现。当使用者启动语音识别程序时,该方法在步骤202开始。当使用者促使计算机下载(如果必要的话)、初始化和启动一个应用软件时,通常会由此发生该语音识别程序的初始化。于是该程序便自动地,或者作为使用者各种输入的结果,开始在步骤204接收和转换输入的语音,并把转换后的语音显示在使用者的计算机监视器上。该转换过程产生文本格式的顺序词列表。在一个最佳实施例中,该程序在步骤205监视语音识别的准确性。可以这样来完成对转换后语音准确性的监视,例如,通过保持跟踪落在一识别阈值之下的转换后词的个数或百分比,或者由使用者改正的那些词的个数或百分比。在一个最佳实施例中,其准确性被连续地监视(例如在逐个词的基础上进行)。在其他一些实施例中可通过周期性或非周期性地检验转换后语音的准确性来监视其准确性。当转换后语音的准确性变为不可接受时,系统自动启动一识别改善工具,它允许使用者容易地调节系统参数以改善识别准确性,如下文中所述。因为自动启动识别准确性改善工具可能会变得令人烦恼,所以在一个最佳实施例中可由使用者取消有连续监视或自动启动特性。也是在一个优选实施例中,使用者能在任何时候人工启动该识别改善工具。步骤206-210显示启动识别改善工具之前的一些决策步骤。这些步骤可作为程序流的组成部分来实现,或者例如可由中断驱动。在任何情况下,计算机继续接收和转换语音(步骤204),直至决策步骤206-210之一使程序进入步骤212或214为止。在步骤206,确定是否使用者已请求启动识别本文档来自技高网...

【技术保护点】
由转换系统实现的转换语音方法,该方法包含以下步骤: a)接收输入语音; b)把输入语音转换成转换后的语音,它包括文本格式的词的顺序列表; c)监视转换后语音的准确性; d)确定转换后语音的准确性是否足够; e)一旦确定转换后语音的准确性不够,便自动启动一个语音识别改善工具;以及 f)使用语音识别改善工具改善转换步骤的准确性。

【技术特征摘要】
【国外来华专利技术】US 1999-6-30 09/345,0711.由转换系统实现的转换语音方法,该方法包含以下步骤a)接收输入语音;b)把输入语音转换成转换后的语音,它包括文本格式的词的顺序列表;c)监视转换后语音的准确性;d)确定转换后语音的准确性是否足够;e)一旦确定转换后语音的准确性不够,便自动启动一个语音识别改善工具;以及f)使用语音识别改善工具改善转换步骤的准确性。2.如权利要求1中申明的方法,这里的监视步骤包含跟踪落在一识别阈值以下的若干词的步骤。3.如权利要求2中申明的方法,这里的确定步骤包含这样的步骤,即如果落在识别阈值以下的词个数高于一预先定义数,则确定其准确性不够。4.如权利要求2中申明的方法,这里的确定步骤包含这样的步骤,即如果落在识别阈值以下的词个数高于一预先定义的百分比,则确定其准确性不够。5.如权利要求1中申明的方法,这里的监视步骤包含跟踪多个由转换系统的使用者改正的词。6.如权利要求5中申明的方法,这里的确定步骤包含这样的步骤,即如果由使用者改正的词数高于一预先定义数,则确定其准确性不够。7.如权利要求5中申明的方法,这里的确定步骤包含这样的步骤,即如果由使用者改正的词数高于一预先定义的百分比,则确定其准确性不够。8.如权利要求1中申明的方法,这理改善转换准确性的步骤包含以下步骤f1)辨识识别问题类型以及f2)向语音识别改善工具的使用者提供可能的解决步骤以解决该识别问题类型。9.如权利要求8中申明的方法,这里辨识识别问题类型的步骤包含以下步骤,f1a)向使用者显示若干可能的识别问题类型;以及f1b)从使用者接收输入,该输入指出使用者把哪种可能的识别问题类型辨识为识别问题类型。10.如权利要求8中申明的方法,这里辨识识别问题...

【专利技术属性】
技术研发人员:克里A奥特格汉斯阿格阿瑟凯勒罗纳德E万布思科克王惠芳音译詹姆斯R刘易斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1