智能识别语音的方法及装置制造方法及图纸

技术编号:15765091 阅读:123 留言:0更新日期:2017-07-06 07:04
本公开提供一种智能识别语音的方法及装置,其中,所述方法包括:采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。本公开提供的智能识别语音的方法可以实现智能设备自主学习用户语言,建立符合用户个性化需求的语音识别库,从而为用户提供智能化的语应控制服务,增强设备的智能化程度,提升用户体验。

Method and device for intelligently recognizing speech sounds

The present invention provides a method and apparatus, intelligent voice recognition, the method includes speech samples of individual users, each speech samples include: video playback time and effective speech feature value corresponding relationship set; the relationship between video playback video information to establish the voice samples and the video play time, building the target language feature database; according to the correlation with the video information of the effective speech feature language features of the target values in a database to determine the speech recognition model. The invention provides a method of intelligent voice recognition equipment can realize intelligent autonomous learning user language, establish the speech recognition library user's personalized needs, so as to provide intelligent control language services for users, enhance the degree of intelligent equipment, to enhance the user experience.

【技术实现步骤摘要】
智能识别语音的方法及装置
本公开涉及人工智能的语音识别
,尤其涉及一种智能识别语音的方法及装置。
技术介绍
语音识别技术是将人类语音中的词汇内容转换为机器可读的输入,即与机器进行语言交流,让机器明白人类在说什么。语音识别的应用非常广泛,以语音控制系统应用于电视节目的语音搜索为例,电视遥控器或安装在用户终端上的遥控器APP接收用户发出的搜索电视节目的语音信息,对用户的语音信号进行特征值提取,将提取的语音特征值与预设的语音识别数据库进行模式匹配,获得识别结果即文字信息,根据识别结果搜索用户想看的电视节目,将相关节目列表推送到电视屏幕。目前人工智能中的语音识别大部分应用都依赖于人工预先训练好的语音识别数据库的内容。当上述预先训练好的语音识别数据库中不包括用户的语音特征信息时,比如预设的语音识别库是人工使用普通话录入的语音信息而建立的,若用户使用外语或某地的方言语音搜索电视节目时,电视便无法准确为用户搜索想看的电视节目,使得电视的语音搜索功能受限,导致电视还不能真正满足用户的个性化需求,智能化程度低。
技术实现思路
有鉴于此,本公开提供一种智能识别语音的方法及装置,实现智能设备自主学习用户语言,从而为用户提供智能化的语应控制服务。根据本公开实施例的第一方面,提供了一种智能识别语音的方法,所述方法包括:采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。可选地,所述采集用户个性化的语音样本,包括:采集用户发出的原始语音信号;根据视频播放时间,从所述原始语音信号中截取预置时间对应的第一语音信号;提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合;将所述第一有效语音特征值集合与对应的视频播放时间,确定为所述语音样本。可选地,所述提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合,包括:对所述第一语音信号进行特征值提取,获得第一语音特征值集合;将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值,获得所述第一有效语音特征值集合。可选地,所述采集用户个性化的语音样本,包括:采集用户发出的原始语音信号;提取所述原始语音信号的语音特征值,获得第二有效语音特征值集合;根据视频播放时间,从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合;将所述第一有效语音特征值集合与对应的视频播放时间确定为所述语音样本。可选地,所述提取所述原始语音信号的语音特征值,获得第二有效语音特征值集合,包括:对所述原始语音信号进行特征值提取,获得第二语音特征值集合;从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值,构成所述第二有效语音特征值集合。可选地,所述建立所述语音样本与视频信息的对应关系,构建目标语言特征数据库,包括:将一个语音样本与对应的视频信息相关联,确定为一组目标语言特征数据;存储每一组目标语言特征数据,构建目标语言特征数据库。可选地,所述根据所述目标语言特征数据库中有效语音特征值与视频信息的相关性,确定语音识别模型,包括:分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性;将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型,存储到目标语音识别库。可选地,所述智能识别语音的方法还包括:统计所述目标语音识别库中所述语音识别模型的数量;当所述语音识别模型的数量达到预置模型阈值时,提醒用户可以使用目标语言进行语音搜索。根据本公开实施例的第二方面,提供了一种智能识别语音的装置,所述装置包括:语音采集模块,被配置为采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;存储模块,被配置为建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;语音识别模块,被配置为根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。可选的,所述语音采集模块,包括:第一语音采集子模块,被配置为采集用户发出的原始语音信号;第一样本语音获取子模块,被配置为根据视频播放时间,从所述原始语音信号中截取预置时间对应的第一语音信号;第一特征提取子模块,被配置为提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合;第一样本确定子模块,被配置为将所述第一有效语音特征值集合与对应的视频播放时间,确定为所述语音样本。可选的,所述第一特征提取子模块包括:第一特征提取单元,被配置为对所述第一语音信号进行特征值提取,获得第一语音特征值集合;第一有效语音特征值确定单元,被配置为将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值,获得所述第一有效语音特征值集合。可选的,所述语音采集模块包括:第二语音采集子模块,被配置为采集用户发出的原始语音信号;第二特征提取子模块,被配置为提取所述原始语音信号的语音特征值,获得第二有效语音特征值集合;第一特征确定子模块,被配置为根据视频播放时间,从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合;第二样本确定子模块,被配置为将所述第一有效语音特征值集合与对应的视频播放时间确定为语音样本。可选的,所述第二特征提取子模块,包括:第二特征提取单元,被配置为对所述原始语音信号进行特征值提取,获得第二语音特征值集合;第二有效语音特征值确定单元,被配置为从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值,构成所述第二有效语音特征值集合。可选的,所述存储模块包括:关联子模块,被配置为将一个语音样本与对应的视频信息相关联,确定为一组目标语言特征数据;存储子模块,被配置为存储每一组目标语言特征数据,构建目标语言特征数据库。可选的,所述语音识别模块包括:分析子模块,被配置为分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性;语音识别子模块,被配置为将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型,存储到目标语音识别库。可选的,所述智能语音识别的装置还包括:统计模块,被配置为统计所述目标语音识别库中所述语音识别模型的数量;提醒模块,被配置为在所述语音识别模型的数量达到预置模型阈值的情况下,提醒用户可以使用目标语言进行语音搜索。根据本公开的第三方面,还提供了一种智能识别语音的设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。本公开的实施例提供的技术方案可以包括以下有益效果:本公开中,智能设备如智能电视可以主动采集用户活动场所内的语音信息作为语音样本,经过语音识别处理,建立用户个性化语言的语音识别模型。也就是说智能本文档来自技高网...
智能识别语音的方法及装置

【技术保护点】
一种智能识别语音的方法,其特征在于,所述方法包括:采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。

【技术特征摘要】
1.一种智能识别语音的方法,其特征在于,所述方法包括:采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性,确定语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述采集用户个性化的语音样本,包括:采集用户发出的原始语音信号;根据视频播放时间,从所述原始语音信号中截取预置时间对应的第一语音信号;提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合;将所述第一有效语音特征值集合与对应的视频播放时间,确定为所述语音样本。3.根据权利要求2所述的方法,其特征在于,所述提取所述第一语音信号的语音特征值,获得第一有效语音特征值集合,包括:对所述第一语音信号进行特征值提取,获得第一语音特征值集合;将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值,获得所述第一有效语音特征值集合。4.根据权利要求1所述的方法,其特征在于,所述采集用户个性化的语音样本,包括:采集用户发出的原始语音信号;提取所述原始语音信号的语音特征值,获得第二有效语音特征值集合;根据视频播放时间,从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合;将所述第一有效语音特征值集合与对应的视频播放时间确定为所述语音样本。5.根据权利要求4所述的方法,其特征在于,所述提取所述原始语音信号的语音特征值,获得第二有效语音特征值集合,包括:对所述原始语音信号进行特征值提取,获得第二语音特征值集合;从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值,构成所述第二有效语音特征值集合。6.根据权利要求1所述的方法,其特征在于,所述建立所述语音样本与视频信息的对应关系,构建目标语言特征数据库,包括:将一个语音样本与对应的视频信息相关联,确定为一组目标语言特征数据;存储每一组目标语言特征数据,构建目标语言特征数据库。7.根据权利要求1所述的方法,其特征在于,所述根据所述目标语言特征数据库中有效语音特征值与视频信息的相关性,确定语音识别模型,包括:分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性;将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型,存储到目标语音识别库。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:统计所述目标语音识别库中所述语音识别模型的数量;当所述语音识别模型的数量达到预置模型阈值时,提醒用户可以使用目标语言进行语音搜索。9.一种智能识别语音的装置,其特征在于,所述装置包括:语音采集模块,被配置为采集用户个性化的语音样本,每一个语音样本包括:视频播放时间与有效语音特征值集合的对应关系;存储模块,被配置为建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系,构建目标语言特征数据库;语音识别模块,被配置为根据所述目标语言特征数据库中的有效语音特征值与所述视频信...

【专利技术属性】
技术研发人员:刘卫星季虹常洋
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1