当前位置: 首页 > 专利查询>刘彤专利>正文

语音输入装置制造方法及图纸

技术编号:6235405 阅读:349 留言:0更新日期:2012-04-11 18:40
本实用新型专利技术涉及一种计算机语音输入技术,特别的涉及将说话语音转变为相应文字的语音输入装置。目的在于提供一种能够实现语音输入高识别率、智能识别输入的装置。一种语音输入装置,包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述语音收集器与数模转换音卡连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本技术涉及一种计算机语音输入技术,特别的涉及将说话语音转变为相应文字的语音输入装置。 
技术介绍
计算机的出现给人们书写文字和写作提供了巨大的方便,它使得任何稍微懂得计算机的人都可以方便地写任何文件、书信。迄今为止,用计算机书写文字的最好和使用最为普遍的方法是用键盘。但是这方法有两个缺点,一是速度慢,尤其是用户键盘输入中文,因为键盘本质上是为输入西方文字而设计的;二是要求使用者有必要的键盘输入的训练和技巧,尤其是具有较高输入速度要求的时候。 由于用键盘输入文字速度慢,而人们说话的速度远远快于键盘输入的速度,所以它不适于做会议、谈话的记录。而对于没有经过专门训练的人,用键盘来快速输入萹幅比较长的中文,是一项非常困难的工作。 美国的IBM公司在过去一些年做了不少语音识别和语音合成的研究工作,在此基础上开发出了名为“VIAVOICE”的语音识别技术和产品。它是个开发成熟而使用较广的技术,目前已应用在许多公司的手机和其它电子产品上,用于接收用户发出的语音指令。但是该技术识别短语和单词的量有限,识别的正确率约在50-70%之间。由于错误比例太大,使用起来很不方便,所以除了用在手机指令系统,其他使用场合很少见到。此外其他几个公司也做过类似语音输入的尝试,结果并不比IBM技术更好,因此其技术基本不为市场所接受,产品也无人问津。 VIAVOICE和其他现存语音识别与输入
技术实现思路
总的来说,都是用查字典(数据库)的方式完成的。即对一种语言,建立一个词汇发音与对应词汇文字的尽可能完全的数据库。用户说出的话被话筒收入后,输入计算机转为数值音频信号。对于相应于音频信号中每个字词的音素,其技术通过查找数据库把相应的词寻找出来,由此把语音输入转换为文字。 然而由于对应一个音素,往往有多个字或者词,而仅凭查数据库无法确定应该取哪一 个,所以上述产品都默认采取数据库中的第一个字或词。 VIAVOICE和其他现存语音识别与输入技术的另外一个出错的来源是噪音的干扰。当人说出的话语通过话筒输入电脑而转化为数值音素时,由于话筒质量问题、音频采集过程和数模转化,不可避免地都会产生噪音,这些噪音叠加在语音信号上,在输入音素中占相当大的比例,从而导致伪语音输入信号,必然导致语音识别容易出现错误。 
技术实现思路
本技术的目的在于提供一种能够实现语音输入高识别率、智能识别输入的装置。 实现本技术目的的技术方案是:--> 一种语音输入装置,包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述语音收集器与数模转换音卡连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。 上述智能语音识别器具有智能语言识别核心,存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库,上述智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库连接。 本技术具有如下好处:1、提供了一个高分辨率和高质量的语音输入技术,使得计算机和其他电子器件的语音输入的错误率大大降低,语音输入文字成为一项可以普遍接受使用,代替键盘输入的一项快速简单的文字输入和文章书写的方式;2、使用本技术技术,可使用计算机和其他电子器材(如手机,掌上电脑等)对会议,交谈做实时快速的记录,大大提高这类场合的文字记录的速度。 附图说明图1为本技术示意图。 图2为图1中智能语言识别核心与数据库的连接示意框图。 具体实施方式见图1和2,本技术装置包括高质量的输入话筒、高分辨率的数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述输入话筒与数模转换音卡 连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。智能语音识别器具有智能语言识别核心,存储器包括字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库各个单元,智能语言识别核心分别与字词数据库、语法数据库、惯用法数据库和文章领域、风格与内容信息数据库各单元连接。 在语音输入过程中,用户的说话通过输入话筒转化成电流信号,并输入到数模转换音卡中,转换成数字音频信号。由于语音输入环境及技术处理问题,数字音频信号中混有噪音,分背景噪音、话筒反映噪音和数模转换噪音,这些噪音会影响对语音的判断,并可能造成语音识别的错误。Z变换集成电路用来对经过数字音频信号进行Z变换及Z变换的逆变换,Z变换为数学上的离散数值变换,经过Z变换后的数字音频信号由原来的按时间领域分布改变为按频率领域分布,这样可以方便的区分出噪音频率和需要输入的语音频率,并把噪音频率去除,然后再进行Z变换的逆变换,把过滤后的音频信号回复到按时间领域分布的状态,此时原来存在的噪音被去除了。 语音的识别工作由语音识别器完成,语音识别器中存有多种话音数据库,包括吴语音字数据库、广东话音字数据库、四川话音字数据库、普通话音字数据库、英国英语数据库和美国英语数据库,这些数据库可以由用户选择使用,可以设定默认的使用数据库种类或者设定两个以上的数据库作为使用范围。 经过过滤的语音数字音频信号由语音识别器进行识别,首先对语音进行判断,将代表单个独立词的音素区分开,然后对照选定的话音字数据库,找出对应该因素的字、词,-->由于限定了语音字数据库,可以较准确的找出对应的字、词。当用户说完一个句子或者一个段落时,智能语音识别器需要再次对这个句子或者段落进行整体识别,参照上下文确定每一个字、词。此时智能语音识别器的智能语言识别核心需要调用字词数据库、语法数据库、惯用法数据库和判断文章的领域、风格与内容信息数据库的相关内容,对句子或者段落的不流畅、有歧义的地方进行纠正,以获得最符合语音来源者本意的文字,并且最终通过显示单元显示出来,当然也可以将这些文字材料直接输出到用户选择的通道,比如直接存入文件,或者通过网络传送出去。 智能语言识别核心调用的文章的领域、风格与内容信息数据库能够在识别过程中,随着输入的语言增多而不断补充其内容,这些增加的内容又可以被智能语言识别核心调用,即领域、风格与内容信息数据库具有自我学习功能。 -->本文档来自技高网
...

【技术保护点】
一种语音输入装置,其特征在于:包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述语音收集器与数模转换音卡连接,数模转换音卡与Z变换集成电路模块连接,Z变换集成电路模块与存储器连接,智能语音识别器与存储器连接,显示模块与存储器连接。

【技术特征摘要】
1.一种语音输入装置,其特征在于:包括语音收集器、数模转换音卡、Z变换集成电路模块、智能语音识别器、存储器和显示模块,上述语音收集器与数...

【专利技术属性】
技术研发人员:刘彤
申请(专利权)人:刘彤
类型:实用新型
国别省市:SE[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1