语音识别与交互系统及方法技术方案

技术编号:6115748 阅读:170 留言:0更新日期:2012-04-11 18:40
本发明专利技术设计一种新的能广泛应用在PC、手机、家用电器等各种终端设备上的语音识别与交互系统。其目的在于在现有的用户交互系统上,添加更加人性化的中文语音交互方式。本发明专利技术在自己超大词汇量非特定人连续中文语音基础上。整个系统包括:交互设计器、交互执行器、平台抽象库、交互插件、平台API核心库五个部分:交互设计器中提出了一种全新的交互设计方法,通过直观的操作就可以完成整个交互的设计;交互执行器用来解释执行交互脚本;交互插件用于扩展已有交互平台抽象库的功能和增加一些特殊应用;平台抽象库用于实现多平台的可移植性和与具体平台的独立性;平台API核心库通过封装具体平台操作系统的API,方便可被平台抽象库调用。

【技术实现步骤摘要】
语音识别与交互 系统及方法
本专利技术涉及一种语音识别技术,尤其涉及一种语音词库的保存和扩展的方法,以 及通过语音进行交互的系统。
技术介绍
让机器听懂人的语言一直是人类的梦想,让机器听懂中国话更是中国人的梦 想。世界上众多的从事信息产业的公司都展示了各自的语音识别技术,尽管实现方式各 不相同,但有一点却是大家相同的,那就是全都是基于言语产生模型(Speech Generation Model)的。如各种模板匹配(LPC,复倒谱等),多模板聚类,隐含马尔可夫链,神经网络模 型等等。但恰恰正是基于言语产生模型的语音识别技术,囿于模型本身的缺陷,而没有可能 取得最终的成功。因为,既然是基于言语产生模型,那么每个人的语音就必然具有各自独特 的声学特征和参数,甚至在不同语境下同一人的话音,其声学特征也会产生明显的变化。因 此,基于言语产生模型的语音识别技术天生是“认人的”,使用前的训练必不可少,而且仍不 能保证有很高的正确识别率。这离语音识别技术“不认人”的要求相去甚远。不过,在目前 尚没有揭示言语模式感知模型(Speech PatterPerception Model)的机制之前,运用言语 产生模型亦实属权宜之计和无奈之举。国外虽然有许多语音识别技术,但经过研究实测,运 用到中文语音识别效果都不是很好。因此,有必要提供一种新的语音识别的方法,来更高效地进行语音识别,并可以进 一步发展基于语音识别的语音交互系统。
技术实现思路
本专利技术的目的在于提供一种能够高效识别语音的语音识别方法。本专利技术的另一目的在于提供一种用于语音识别的语音词库记录方法,其占用的存 储空间小,可无限扩展。本专利技术的另一目的在于提供一种不需要预先录制语音命令的语音交互系统的设 计方法。本专利技术的另一目的在于提供一种能够应用于PC机、笔记本、手机、PDA、家用电器 等各种终端设备上的语音识别与交互系统。本专利技术的再一目的在于提供一种通过语音执行软件操作的方法。为达成前述目的,本专利技术一种语音识别方法,其包括如下步骤对语音波形特征进行分析,提取出所述语音对应的音素信息,将所述语音的音素信息转换为拼音或音标信息,通过匹配算法在语音词库中查找与所述拼音或音标信息匹配的文字,完成语音识 别的过程。进一步地,所述方法可应用于识别普通话、方言、英语以及其他语种。进一步地,所述语音词库储存的为汉字的拼音信息或英文的音标信息,所述拼音信息或音标信息可以是未编码的字符信息,也可以是编码处理过的二进制信息,所述编码 也可以包含压缩过程,其中所述语音词库可以无限扩展。为达成前述目的,本专利技术一种用于语音识别的语音词库记录方法,其特征在于所 述词库中记录的信息为汉字的拼音信息或英文的音标信息。进一步地,所述音标信息可以是未编码的字符信息,也可以是编码处理过的二进 制信息,所述编码也可以包含压缩过程。为达成前述目的,本专利技术一种语音交互系统的设计方法,其包括提供一个交互设计界面; 提供若干交互要素,其中每一所述交互要素对应一个语音交互单元,其中所述语 音交互单元是通过前述权利要求1所述的方法识别语音;在所述交互设计界面通过推拽所述交互要素形成语音交互启动器能够识别的交 互脚本。为达成前述目的,本专利技术一种语音交互系统,其包括交互设计器、交互执行器、平 台抽象库、交互插件以及平台应用程序编程接口(API)核心库;所述交互设计器用于设计 交互脚本,所述交互执行器用来解释执行前述交互脚本,完成语音交互的过程;交互插件用 来扩充和改进语音交互系统的功能,实现附加功能;平台抽象库用来实现对整个平台接口 和功能的封装,实现多平台的可移植性和与具体平台的独立性。在不同操作系统下,具体的 实现将调用平台API核心库;平台API核心库用来实现对于特定操作系统的移植和封装。进一步地,所述平台API核心库是用于封装具体平台操作系统的应用程序编程接 口(API)。为达成前述目的,本专利技术一种语音操作软件的方法,其包括通过操作系统提供的应用程序编程接口(API)遍历系统中软件的窗口、菜单或按 钮,获得所有可操作的命令;通过前述语音交互系统设计方法建立与所述命令对应的语音识别命令;通过前述语音识别方法进行语音识别,并判断所识别的语音是否是与所述命令对 应的语音识别命令相同,若是,则系统调用操作系统提供的对应应用程序编程接口(API) 来模拟一般操作方式的方法来执行这些命令。进一步地,所述一般操作方式包括左键单击、左键双击,右键单击,右键双击、键 盘快捷键以及触摸屏点击。本专利技术的中文语音交互系统,不需要用高档的录音设备,也不需要安静的场合,大 部分人都能直接使用、词汇量超大,而且非特定人都可以连续进行中文语音交互,本专利技术的 语音词库大小远远小于直接记录语音波形采样数据的方式,而且本专利技术的语音交互设计过 程不同于传统的需要通过录制用户发音的方式来建立命令,整个过程可以完全不需要用户 说话,直接用文字就能与命令对应起来。附图说明下面将结合附图对本专利技术进一步描述图1是本专利技术中语音识别系统的结构框图;图2是本专利技术中语音识别系统的方法流程图3是本专利技术语音交互系统的结构框图;图4是本专利技术语音交互系统的交互脚本设计方法流程图;图5是本专利技术 语音交互设计器的设计界面的示意图;图6是本专利技术语音交互设计器中用到的的语音交互单元的示意图;图7是本专利技术语音交互系统的识别交互过程流程图。具体实施方式此处所称的“一个实施例”或“实施例”是指可包含于本专利技术至少一个实现方式中 的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一 个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。此外,表示一个或多 个实施例的方法、流程图或功能框图中的单元顺序并非固定的指代任何特定顺序,也不构 成对本专利技术的限制。现有的国外的语音识别技术例如IBM的ViaVoice,经过研究实测,运用到中文语 音识别效果都不是很好。本专利技术人认为“应该按照中国人听中国话的方式”来进行识别! 我们在听别人说话时,并不需要完全听清,但大部分情况本我们还是能明白是什么意思。所 以本专利技术人放弃了去建立中文语音模型的,将重心转向模糊神经网络模型来进行中文语音 识别。通过不断探索研究,本专利技术人找到了一套切实可行的识别方法,非常适合中文语音的 特点,甚至很容易扩展来听懂方言。本专利技术人不需要用户跟着训练的范本录制很多声音文 件(占用很大空间,动辄上G),也不需要用户将每一个词语都讲得非常清晰,本专利技术涉及的 语音识别模块都能识别出来。上面是本专利技术人2005年的一个突破,后来通过不断改进,在研究中发现中文的句 式几乎都能套用一种模式,那就是“定语+主语+状语+谓语+定语+宾语+状语+补语”, 而且在中文中往往是某个词只能做某一类句子成分,这样通过整理一些句式,并借用统计 学的方式有效归纳组织词汇,加上进一步优化改进后的语音识别模块就形成了本专利技术涉及 的连续中文语音识别的原型。再后来本专利技术人实现了不需要用高档的录音设备,也不需要 安静的场合,大部分人都能直接使用的超大词汇量非特定人连续中文语音交互系统,真正 实现“动口不动手”。请参阅图1所示,其显示本专利技术的语音识别系统的结构框图。如图1所示,本专利技术 的本专利技术的语音识别系统100包括语音信号接收单元11、语音本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,其包括如下步骤:对语音波形特征进行分析,提取出所述语音对应的音素信息,将所述语音的音素信息转换为拼音或音标信息,通过匹配算法在语音词库中查找与所述拼音或音标信息匹配的文字,完成语音识别的过程。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘兆鹏
申请(专利权)人:无锡大核科技有限公司刘兆鹏
类型:发明
国别省市:32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1