当前位置: 首页 > 专利查询>刘新斌专利>正文

一种语音虚拟键盘用户指令词库的构建方法技术

技术编号:3046351 阅读:445 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种通过少量词汇的精确识别(语音虚拟键盘)和多次交互来实现语音输入和控制的方法。本发明专利技术使用由少量词语如数字0-9以及“是”、“否”词语构成的数量极少的指令词库数据库。当计算机模糊或精确检索到用户语音输入的目标命令后,利用指令词库内的键元素排序输出检索结果供用户选择或确认,然后高精度匹配用户的选择或确认的指令词,实现交互控制。本发明专利技术可应用于汽车导航、过程控制等领域,替代键盘等输入设备。

【技术实现步骤摘要】

本专利技术公开了一种通过少量词汇的精确识别(语音虚拟键盘)和多次交互来实现低速率高精度语音输入和语音控制的方法。本专利技术属于计算机多媒体信息输入和控制领域,尤其是通过语音信息来实施控制的多媒体
随着计算机技术的不断发展,语音输入技术及其处理技术已经被广泛地应用到了社会生活的各个方面。但是由于语音输入有非常多不确定性和复杂性,现在的计算机系统还难以满足对语音分辨的准确性的要求,尤其是用于实时控制的、计算处理能力并不是十分强大的计算机系统,因此语音输入更多地用于语音转换和保存、传输等不需要解析语音含义的领域,相对而言语音用于人机交互控制领域,其语音解析的准确性是目前的主要问题。现有技术的解决方法,主要是通过多次学习使用者的对于每一个音节的发信特征,来提高系统对使用者的语音解析的准确性。但是这种方法存在着三个问题难以解决第一是应用前需要事先学习,即使用者需要多次反复朗读全部标准语音表,供给计算机系统解析并构建使用者的发音数据库,甚至需要采集使用者在不同的环境、健康状况等条件下的发音特征,才能构建比较完整的数据库,这无疑大大增加了使用者使用的难度,使这种最简单的控制方式变得非常复杂,大大地限制了语音控制的普及使用;第二是要求计算机系统的软件要有很强的智能性,即使在使用者的发音都能够被准确解析、辨认的条件下,还能够通过前后文的联系来准确分辨同音多意的词组或者语句,因而不仅要求计算机系统具有十分强大的数据处理和运算能力,还要有非常智能化的软件的支持;第三是由于前两点,现有语音输入还是针对专有使用者,还不能使用到口音纷繁的公众场合。如果再把这些要求联合起来,除非使用功能强大、结构复杂、造价高昂的专用系统,才有可能实现语音控制,而对于廉价的控制系统,目前几乎无法实现。本专利技术的目的,就是根据现有语音控制系统的缺点和不足,提供了一种通过在系统中构建“语音虚拟键盘”,来实现人机交互控制或交互式低速率语音输入的方法;该方法包括在人机交互系统中构建语音虚拟键盘的方法,以及该语音虚拟键盘在系统中的使用方法。本专利技术所述的语音虚拟键盘,实质上是一个由少量词语如阿拉伯数字0-9以及“是”、“否”等发音比较明确的词语构成的数量极少的“指令词库”数据库,在计算机等待指令或等待选择的状态时,语音被系统只用来匹配指令词库,从而进行精确交互。“指令词库”数据库可在应用本专利的产品出厂前针对当地的口音预设,也可被单一用户重新构建,构建的方法如下A.设定该语音虚拟键盘的键元素内容和数量,并按照一定的方式编码排列;B.按照上述编码排列顺序选定每一个键元素,并使用某种能被使用者明确感知的方式,提示依次使用者朗读每个键元素;C.计算机系统对于所接收到的、使用者对应于每个键元素的发音进行解析,并将解析得到的结果,存储到计算机系统内非易失性存储器内的特定空间内,并将该解析结果与所对应的键元素相关联;D.当全部键元素全部被使用者朗读达到设定的次数之后,计算机系统对全部的发音解析结果进行整理,构成一个对应于该使用者的键元素数据库,即该虚拟语音键盘的用户指令词库。该语音虚拟键盘应用在以计算机为控制核心的人机交互系统上,要求计算机系统上已经构建包含有与同一使用者相对应的语音数据库,以及与控制目的或对象相关的目标数据库;因此在系统中的使用方法或步骤如下启动语音交互控制功能;B.使用者朗读与被控制对象或者目的相关的关键词;C.计算机系统解析用户的发音,然后在与使用者对应的语音数据库中搜索、比较,得到与该使用者的关键词发音相对应的数据代码;D.用上述代码为标的搜索所述的目标数据库;E.判断是否得到相符合的结果如果搜索得到了相关的数据,继续执行步骤E,如果没有搜索得到相关数据,则跳转执行步骤H;F.通过某种容易别用户感知的方式,利用语音虚拟键盘内所包含的键元素数据库为标识,按照一定规则或顺序输出搜索结果,并用语音方式提示使用者利用语音虚拟键盘包含的键元素,使用语音指令来确认或者选择所述的输出结果;G.不断精确解析外部的各种声音输入,将解析结果与用户指令词库即键元素数据库中的使用者的发音指令数据相比较,判定使用者是否确认或者选择;如果判定使用者已经确认或者选择,则继续执行步骤H;如果使用者没有确认或者选择,则跳转执行步骤I;H.判定使用者确认或选择的结果是否是最终目标数据如果所述数据不是最终目标数据,则进一步搜索目标数据库,得到更接近最终目标数据的搜索结果,然后重复步骤E、F输出,供使用者再次确认或者选择;如果使用者确认或选择的一警示是最终的目标数据,就将目标数据输出到系统的其他部分进行下一步操作,并结束本次交互控制的操作;I.根据控制服务程序的设定,或者提示用户重新操作,或者重新设置操作入口进行其他操作,或者终止本次交互控制的操作。由上面的技术方案可以看到,由于本专利技术使用了词汇量很少的“语音虚拟键盘”,来实现从多种可能的目标结果中选择的人机交互方式,因此具有以下的优点第一,由于计算机系统需要精确解析辨认的只有“语音虚拟键盘”的语音,词语的数量大为减少、发音简单,而且也不需要前后结合来理解使用者语音的真正含义,因此解析的准确率得到了极大的提高,针对单一用户几乎能100%正确分辨,而针对各种口音的公众场所应用可达到一定口音范围内的100%正确分辨;第二,由于可以通过“给出一组相关结果供用户选择”的方式来实现交互控制,因此不再要求计算机系统高速运行进行一次到位的精确的解析,这一方面降低了对计算机系统软硬件配置的要求而降低了系统的成本、容易普及推广;另一方面也只需要使用者朗读一两遍标准发音表,就能基本上实现用户语音含义的模糊辨认;同时由于虚拟语音键盘中包含的指令的数量很少且发音简单,即使系统要求多次采集使用者在不同情况下的指令发音,也很容易完成,因此使用者使用前的朗读等准备工作量大大减少,最大限度地减轻了使用者的准备工作的时间和强度。本专利技术虽然操作速度比较慢,但识别精度高,完全满足实用要求,针对个人可应用于汽车导航、灯光控制、玩具等领域,针对公共场所可取代各种键盘按键触摸屏等,既减少交叉接触传播疾病又简化外观延长使用寿命。下面结合附附图说明图1、2所示的实施例,来详细说明本专利技术的技术方案。图1构建语音虚拟键盘的一般程序流程2使用语音虚拟键盘的人机交互控制系统的一般工作流程图本专利技术中所涉及的语音虚拟键盘,其实质上就是一个用户控制指令集。这个指令集可以由数字构成,类似电话机上的拨号键盘,由0-9个数字和两个确认健构成,在此确认健可以用“是”、“否”来替代电话机上的“*”和“#”健;也可以根据特殊需要,由部分字母构成,如26个英文字母中的全部或者部分,或者其他语言的字符。语音虚拟键盘中每个虚拟键位,即选择“键元素”的基本原则是发音要尽可能简单,尽可能是在所属语言中是单音节的发音。语音虚拟键盘的构建过程,实质上就是一个对使用者朗读指令集的发音的采集解析过程,利用采集到的使用者的指令发音构建成为一个“用户指令词库”,供系统检索调用。图1给出了这个语音虚拟键盘的一般构建方法。启动语音用户语音指令采集的步骤101后,系统就进入了录音采集的状态。首先要通过步骤102设置键元素104,即“虚拟键盘”中包含有虚拟的“按键”的数量M。这个过程是由计算机系统根据系统控制的要求来自本文档来自技高网...

【技术保护点】
一种构建用于交互控制的语音虚拟键盘的方法,该方法包含有以下步骤:A.设定该语音虚拟键盘的键元素内容和数量,并按照一定的方式编码排列;B.按照上述编码排列顺序选定每一个键元素,并使用某种能被使用者明确感知的方式,提示依次使用者朗读每个键元素;C.计算机系统对于所接收到的、使用者对应于每个键元素的发音进行解析,并将解析得到的结果,存储到计算机系统内非易失性存储器内的特定空间内,并将该解析结果与所对应的键元素相关联;D.当全部键元素全部被使用者朗读达到设定的次数之后,计算机系统对全部的发音解析结果进行整理,构成一个对应于该使用者的键元素数据库,即该虚拟语音键盘的用户指令词库。

【技术特征摘要】
1.一种构建用于交互控制的语音虚拟键盘的方法,该方法包含有以下步骤A.设定该语音虚拟键盘的键元素内容和数量,并按照一定的方式编码排列;B.按照上述编码排列顺序选定每一个键元素,并使用某种能被使用者明确感知的方式,提示依次使用者朗读每个键元素;C.计算机系统对于所接收到的、使用者对应于每个键元素的发音进行解析,并将解析得到的结果,存储到计算机系统内非易失性存储器内的特定空间内,并将该解析结果与所对应的键元素相关联;D.当全部键元素全部被使用者朗读达到设定的次数之后,计算机系统对全部的发音解析结果进行整理,构成一个对应于该使用者的键元素数据库,即该虚拟语音键盘的用户指令词库。2.权利要求1所述的构建语音虚拟键盘的方法,在步骤B、C中还包含以下步骤E.当计算机系统选定某个键元素要求使用者朗读时,多次提示用户重复朗读该键元素;与此相对应,计算机系统多次解析使用者的有效发音,并将每个解析结果都与该键元素相关联。3.权利要求2所述的构建语音虚拟键盘的方法,在步骤D中还包含以下步骤F.计算机系统将上述与某个键元素相关联的解析结果再次进行解析,找到该使用者朗读某个键元素的发音的、具有普遍意义的特征值;并用这个普遍意义的特征值作为该键元素的相关数据来构建键元素数据库。4.一种用于交互控制的语音虚拟键盘的使用方法,应用在以计算机为控制核心的系统上,该计算机系统上已经构建了与特定的使用者相对应的语音虚拟键盘,并且包含有与同一使用者相对应的语音数据库,以及与控制目的或对象相关的目标数据库;该使用方法包含有如下步骤A.启动语音交互控制功能;B.使用者朗读与被控制对象或者目的相关的关键词;C.计算机系统解析用户的发音,然后在与使用者对应的语音数据库中搜索、比较,得到与该使用者的关键词发音相对应的数据代码;D.用上述代码为标的搜索所述的目标数据库;E.判断是否得到相符合的结果如果搜索得到了相关的数据,继续执行步骤E,如果没有搜索得到相关数据,则跳转执行步骤H;F....

【专利技术属性】
技术研发人员:刘新斌
申请(专利权)人:刘新斌
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利