向被声音启动的数据处理系统发送声音样本的方法和装置制造方法及图纸

技术编号:2889325 阅读:186 留言:0更新日期:2012-04-11 18:40
一种改善与至少一个带有语音识别系统的远程声音启动数据处理系统进行声音通信的方法,包括以下步骤: (a)把用户的声音特征存贮在一个无线传输装置的存储器中; (b)响应声音启动命令,用声音启动该无线传输装置和远程语音识别系统;以及 (c)响应对无线传输装置和语音识别系统的启动,将声音特征从存储器传送给语音识别系统,从而使用户能与被声音启动的处理系统直接进行口头通信。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及改进与语音识别系统的通信,更具体地说,是涉及向一个数据处理系统的一个依赖于说话者的语音识别系统传送声音样本的方法和装置,但不限于此。口语在人与人的通信以及人-机通信和机-人通信当中起到重要作用。例如,现代语音邮件系统、帮助系统、以及电视会议系统都把人的语音包括进去了。再有,随着技术继续更新,人的语音将在机/人通信中发挥更大的作用。特别是可以预见,一个无线ATM机(自动取款机)(或任何类型的无线机,如油泵、旅行信息亭、销售端点)将包含一个语音识别系统,从而用户只需向ATM机说话。本专利技术试图使用户容易而有效地与这类机器进行口头通信,而无需向这种机器插入卡片或任何其它类型的装置。传统的语音识别装置“听取”并理解人的语音。然而,为了具有可以接受的声音识别精度,传统的语音识别系统利用了所存储的用户声音样本。用户朗诵30个左右精心构造的句子,这些句子能抓住足够的声音特征,从而产生出声音样本。语音特征含有用户语音的韵律学特征,包括节奏、音调、变音和速度。传统的语音分析器处理语音样本,分离出每个双音(diphone)段的音频样本并确定特征韵律曲线。语音分析器使用众所周知的数字信号处理技术例如隐式马尔可夫模型,以产生出双音段和韵律曲线。所以,利用存储的语音样本,传统的语音识别系统有大约90%的准确率。然而,若每次用户想与一无线机器进行口头通信时都需要重复那30个句子,这将是很不利的。根据所给出的背景信息,对于大量用户而言,将会特别希望能够高效率地、有效地通过语音与无线交互相器进行远程通信,这对于他们是特别有利的。然而,这必须开发出一种技术或装置,使得在用户能以高准确率与机器进行口头通信之前,把分析过的用户声音样本传送给该机器。本专利技术的第一方面的专利技术提供了一种方法,用于改善与至少一个远程声音启动数据处理系统的声音通信。该处理系统中具有一个语音识别系统。该方法包括以下步骤(a)把用户的声音特征存贮在一个无线传输装置的存储器中;(b)响应声音启动命令,用声音启动该无线传输装置和远程语音识别系统;以及(c)响应对无线传输装置和语音识别系统的启动,将声音特征从存储器传送给语音识别系统,从而使用户能与被声音启动的处理系统直接进行口头通信。本专利技术第二方面的专利技术提供了一种声音传输系统,该系统使与设在远程数据处理系统中的远程语音识别系统进行声音通信成为可能,该声音传输系统包括无线传输装置,其中有存储器用于存贮用户的声音特征;该无线传输装置和语音识别系统适应于响应由无线传输装置收到的声音启动命令,从而被启动;以及该无线传输装置适应于响应启动语音识别系统和无线传输装置,以从存储器向语音识别系统传送声音特征,从而使用户能直接与语音识别系统进行口头通信。在本专利技术的一个最佳实施例中,一种装置和由计算机实现的方法把被分析的声音样本从用户携带的无线传输装置传送给远程数据处理系统,该系统具有语音识别系统以读取声音样本。该方法包括的第一步骤是把一组用户声音特征存储到无线传输装置的一个存储器(例如一个RAM(随机存取存储器)芯片)中。第二步骤包括响应声音命令用声音启动传输装置和远程语音识别系统。在传输装置和语音识别系统已被启动之后,其第三步骤包括自动地从存储器到语音识别系统远程传送声音特征,从而使得用户能直接与被启动的数据处理系统进行口头通信。本专利技术提供一种改进的声音传输系统,它响应预先定义的声音命令,自动地把用户的声音特征传输给一个无线数据处理系统。本专利技术还提供一种装置(例如传输装置),用于存储用户的声音特征和把声音特征传送给数据处理系统,还提供一种装置用于启动数据处理系统去等待和接收这个声音特征。现在将参考附图以实例更详细地描述本专利技术。附图说明图1显示实现本专利技术的代表性硬件环境的方框图。图2显示了根据本专利技术的改进的声音传输系统的方框图。图3显示了一个用户携带无线传输装置与远程数据处理系统通信的情况。图4显示了从无线传输装置向远程数据处理系统传送声音特征的流程图。本专利技术的最佳实施例包括把含有用户声音特征的声音样本远程自动传送给语音识别系统的方法和装置。该最佳实施例是在膝上计算机或工作站(如图1所示)中实现的。工作站100包括中央处理单元(CPU)10(例如IBMTM的PowerPCTM601或IntelTM486微处理器)用于处理缓存15,随机存取存储器(RAM)14,只读存储器16,以及非易失RAM(NVRAM)32。由I/O适配器18控制的一个或多个磁盘20提供了长期存储能力。多种其他存储介质也可以利用,包括磁带、CD-ROM、以及WORM驱动器。也可以提供可拆卸存储介质,以存储数据或计算机处理指令。来自采用任何适当操作系统(如Sun SolarisTM,MicrosoftWindows NTTM,IBMOS/2TM,或Apple MACOSTM)的桌上型计算机的指令和数据通过RAM14控制CPU10。然而,本行业的熟练人员不难认识到,其他硬件平台和操作系统也可以用来实现本专利技术。用户通过由用户接口适配器22控制的I/O装置(即用户控制器)与工作站100进行通信。显示器38向用户显示信息,而键盘24、指点装置26、传输装置30及扬声器28则让用户去指挥计算机系统。也可以利用其他类型的用户控制器,如游戏棒、触摸屏、或虚拟现实头戴送受话器(headset)(图中未画出)。通信适配器34控制该计算机系统和由网络适配器40连到网络上的其他处理单元之间的通信。显示适配器36控制该计算机系统和显示器38之间的通信。图2显示出根据该最佳实施例的一个完整的声音传输系统200的方框图。传输系统200包括声音特征提取器210、传输装置220以及语音识别系统230。声音特征提取器210装在任何适当的工作站(如图1所示工作站100)中,包括模数转换(A/D)子系统204、语音分析器206以及语音压缩电路207。图4显示出从无线传输装置向远程数据处理系统传送声音特征的流程图。参考图2和图4,在本实施例中,用户把包含说话者足够的声音特征的声音样本(例如大约30个句子)通告给话筒202(步骤410)。声音特征包括声音的韵律,例如节奏、音调、变音和速度。这类句子对于语言合成技术专家而言是公知的。例如,一个句子可以是“The quickfox jumped over the lazy brown dog”(敏捷的狐狸跃过了褐色的懒狗)”。A/D子系统204(和222)对声音样本取样和数字化,该子系统可包括任何适当的模拟-数字系统,如IBM的MACPA(即多媒体音频接收和回放适配器),Creative Labs的声霸(Sound Blaster)声卡或单片机解决方案(步骤412)。接下来,任何适当的传统的语音分析器206对被数字化的声音样本进行处理,以把每个双音段的音频样本隔离开并确定韵律曲线(步骤414)。语音分析器206使用众所周知的数字信号处理技术,例如隐式马尔可夫模型,以产生双音段和韵律曲线。美国专利4,961,229号和3,816,722号描述了合适的语音分析器。语音编码电路207利用传统的数字编码技术压缩双音段和韵律曲线,从而降低对传输带宽和存储的要求(步骤416)。语音编码电路207把得到的被压缩韵律曲线和双音段存储在传输装置220的RAM本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:乔伊·李·克里那斯考特·哈兰·伊森斯里奇·李·珀斯通乔恩·哈拉尔德·韦那
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1