一种数字电视语音识别人机交互系统及方法技术方案

技术编号:5277566 阅读:310 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数字电视语音识别人机交互系统及方法,系统包括目标语音采集模块、语音分析模块、语义计算模块以及智能控制模块;所述目标语音采集模块包括信号放大模块、向前滤波模块、信号采样模块,数据压缩编码模块;所述语音分析模块包括噪声去除模块、特征提取模块、解码模块;方法包括目标语音采集、语音噪声消除、语音识别处理、命令识别转换、智能控制处理过程;本发明专利技术通过各模块的协同工作,完成对数字家庭生后的数字电视混响声学环境下的抗干扰语音智能识别和语音分析与互动的数字电视人机交互技术,提供先进的数字电视语音语言交互方式。

【技术实现步骤摘要】

本专利技术涉及语音处理和语义识别
,以及计算机智能分析、处理并采集 语音的技术,具体涉及。
技术介绍
语音识别技术主要是让机器通过识别和理解把语音信号变成相应的文本或者命 令的技术。语音识别技术通过语音的采集输入,提取出语音的特征,再运用模型数据库 的语音信息特征进行模式匹配,得到语音所包含的信息转换为文字或者命令。根据语音识别的对象不同,在语音识别人物中大体可分为孤立词识别、关键词 识别和连续语音识别三类。孤立语音识别运用在识别事先已知的词汇,关键词识别运用 在连续的语音当中,但是它并不识别全部文字,而只检测已知的若干关键词的出现,连 续语音识别用于识别连续的一个句子或一段话。在现实家庭生活的数字电视混响声学环境下,噪声所造成的语音识别影响比较 大。在现实家庭生活中,语音识别的限制主要在于噪声的影响和互动语音的不规范性和 任意性。简单地说,由于噪声对用户的语音采样和输入造成影响,在语音识别中会发生 理解错误或者用户语音的丢失。用户互动语音的不规范性和任意性在语音识别中的匹配 带来的随机的不确定性,在匹配语音当中可能因为语音的不规范性和任意性和匹配错误 造成语音的语语义解错误。解决在家庭生活的数字电视混响声学环境下,在用户互动语音不规范性和任意 性的情况下,关键词语音识别对这种环境下的连续语音识别有更好的应用。在用户的连 续语音命令中,关键词识别能够匹配出已知的关键词所在的位置,并根据关键词的位置 和组合,解释出需要执行的命令。因此,本专利技术提出了,目的在于在 数字电视的环境下,提供先进的数字电视语音语言交互方式。
技术实现思路
本专利技术的目的在于在现实家庭生活的数字电视混响声学环境下,解决互动语音 的不规范性和任意性问题,提供一种数字电视语音识别人际交互系统及方法。本专利技术数字电视语音识别人际交互系统是由目标语音采集模块、语音分析模 块、语义计算模块以及智能控制模块所组成。所述目标语音采集模块是一个或者多个用于采集语音信息的麦克风或其他录入 系统,实现语音信息的自动采集,以及模拟的语音信息向数字语音信息的转换,包括信 号放大模块、向前滤波模块、信号采样模块,数据压缩编码模块;所述的语音分析模块用于处理语音信息,在现实家庭生活的数字电视混响声学 环境下提取出有用的语音信息,去除噪声杂音,然后得出语音信息数据,转换成为文字 信息,包括噪声去除模块、特征提取模块、解码模块;所述的语义计算模块,用于理解语音分析模块得出的文字信息的含义,通过模 糊信息搜索和汉语口语理解,对语音进行特征抽取,把语音信息解释为能够执行的命 令。首先根据命令信息库在文字信息中搜索所有与命令相关的文字进行语义计算,再根 据命令文字的位置和顺序以及命令文字的上下文语句,判断出所需要执行的命令。语义 计算模块通过对识别出来的关键文字信息进行解释,在现实家庭生活的数字电视混响声 学环境中设定语音与命令对应转换关系,从而把关键文字信息转化为命令。所述的智能控制模块,用于接收语义计算模块的命令,当命令能够正确执行 时,执行所获得的命令并对用户进行声音、图像和视频的提示和交互,然后继续返回目 标语音采集模块对用户进行交互。当命令无效时,向用户提示命令无效,然后返回目标 语音采集模块等待用户的交互语音信息。上述技术方案中,所述目标语音采集模块还包括数据压缩编码模块,压缩编码 后能够使传输速度加快,减少系统的延时。上述技术方案中,所述目标语音采集模块中的信号采样模块使用单片机作控制 兼数据处理,也就是CPU控制读入采样数据,继而自行进行数据压缩,在速度可以达到 要求的同时成本相对较低。本专利技术中所述语音分析模块设置有存放汉语口语信息的数据库模块。在建立关 键词时,采用音节建模,在声学模型和语言模型基础上的隐马尔可夫模型(HMM)拓扑 结构,先进行分割,再对每一段进行解码。所述语义计算模块设置有存放执行命令和提取信息策略的数据库模块,所述数 据库模块设置有人工智能自学习机制,并设置有人工控制接口。在语义分析中设置人 工选择歧义信息,并对数据库的信息提取策略进行人工智能学习,增强语义识别的准确 性。上述方案中,所述的语义计算模块融合了中文模糊信息检索、汉语口语理解技 术,利用中文模糊信息检索找出包含命令的关键词语,再利用汉语口语理解技术对关键 词语进行理解和解释,从而获得所须要实行的命令。所述的智能控制模块能够根据命令直接控制数字电视,智能控制模块能够根据 命令对机顶盒进行操作,从而达到控制数字电视与人交互的效果。此外,一种数字电视语音识别人机交互方法,其步骤如下所述1)起始步骤,用于启动本语音识别人际交互系统;2)采集语音信息,在现实家庭生活的数字电视混响声学环境下,如果用户想要 通过语音与数字电视进行交互,则通过目标语音采集模块采集用户的语音信息。首先利 用测量放大器把语音信号放大,然后采用5阶巴特沃斯低通和5阶巴特沃斯高通级联进行 向前滤波,再根据奈奎斯特准则利用AD采样芯片进行4k和8k采样速率的信号采样。最 后进行数据压缩编码,使数据变成数字语音信息;3)语音信息的转换,目标语音采集模块所采集的语音信息包含噪声,通过语音 分析模块的处理,把用户的语音信息提取出来,并解释成为文字信息。参照所有数字电 视的执行命令,定义与命令相关的关键词,通过语音分析模块,在用户的连续语音输入 中匹配识别出关键词的位置,并把关键词映射为文字信息;4)语义理解,根据所得出的文字信息,通过语义计算模块,得出将要被执行的命令。根据命 令信息库在文字信息中搜索所有与命令相关的文字,再根据命令文字的位 置和顺序以及命令文字的上下文语句进行语义计算,判断出所需要执行的命令;5)通过在语义计算模块所得出的命令,当命令能够被正确执行的时候,智能控 制模块执行命令并对用户进行声音、图像和视频的交互,并返回目标语音采集模块对用 户进行下一步交互,当命令无效时,智能控制模块向用户提示命令无效,然后返回目标 语音采集模块等待用户的交互语音信息。本专利技术的有益效果如下1、本专利技术所提出的,实现数字电视 语音语言的交互。本专利技术在现实家庭生活的数字电视混响声学环境下,提供用户与先进 的数字电视语音语言的交互,实现面向数字家庭的应用。2、本专利技术所提出的,在建立关键 词时,采用音节建模,在声学模型和语言模型基础上的隐马尔可夫模型(HMM)拓扑结 构,先进行分割,再对每一段进行解码,能够使语音识别更加准确。3、本专利技术所提出的,在语义理解 中,运用交互操作和人工智能学习方法,根据命令信息库在文字信息中搜索所有与命令 相关的文字,再根据命令文字的位置和顺序以及命令文字的上下文语句进行语义计算, 使语义判断更加准确和快速。4、本专利技术所提出的,在现实家庭生 活的数字电视混响声学环境中设定语音与命令对应转换关系,能够在更好地适应语音的 不规范性和任意性。附图说明图1为本专利技术系统整体模块框图;图2为本专利技术方法的操作流程图;图3为本专利技术语音采集流程图;图4为本专利技术语音分析流程图。具体实施例方式下面结合附图对本专利技术进行详细描述。如图1所示,一种数字电视语音识别人机交互系统,它包括目标语音采集模 块、语音分析模块、语义计算模块以及智能控制模块;所述目标语音采集模块包括信号 放大模块、向前滤波模块、信号采样模块、数本文档来自技高网...

【技术保护点】
一种数字电视语音识别人机交互系统,其特征在于包括:  实现语音信息的自动采集,以及模拟的语音信息向数字语音信息的转换的目标语音采集模块;负责处理语音信息,在现实家庭生活的数字电视混响声学环境下提取出有用的语音信息,去除噪声杂音,然后得出语音信息数据,转换成为文字信息的语音分析模块;用于理解语音分析模块得出的文字信息的含义,把语音信息解释为能够被执行的命令的语义计算模块;用于接收语义计算模块的命令,执行命令信息的智能控制模块。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗笑南刘宁苏嘉伟薛凯军陈健民
申请(专利权)人:广东中大讯通信息有限公司东莞市聚川电子科技有限公司
类型:发明
国别省市:81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1