本发明专利技术公开了一种基于声纹搜索的信息推荐方法及装置。该方法包括:对输入的语音信息进行预处理,获得待识别的声纹数据;提取所述声纹数据的韵律特征;根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。采用本发明专利技术,可以根据用户语音快速准确地给用户推荐节目内容。
【技术实现步骤摘要】
本专利技术涉及语音识别
,更具体地,涉及基于声纹搜索的信息推荐方法及装置。
技术介绍
自从专利技术并使用各种机器以来,人类就有一个梦想,那就是让各种机器能够听懂自己的语言,并按照口头命令采取对应的行动,从而实现人机之间的语言交互。语音技术的出现,为人类这一梦想的实现创造了可能。语音技术是计算机利用相应算法从语音中自动提取出人类需要的、具有实际意义的信息。语音技术的研究开始于20世纪50年代,至今已有60年的历史。随着信息技术的高速发展,语音技术变得越来越重要,其应用前景也越来越广阔。其中,网络和多媒体技术发展至今,人们想对特定人的音频内容进行快速检索,从而能够快速定位到感兴趣的人的节目内容。如何基于说话人识别技术的说话人分割、说话人聚类,在大量的历史语音数据和最新的广播电视新闻信息中查询到有效的目标数据,成为当前业界的共同问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种基于声纹搜索的信息推荐方法及装置,能够根据用户语音快速准确地给用户推荐节目内容。本专利技术实施例中提供了一种基于声纹搜索的信息推荐方法,包括:对输入的语音信息进行预处理,获得待识别的声纹数据;提取所述声纹数据的韵律特征;根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。优选地,所述对输入的语音信息进行预处理,获得待识别的声纹数据的步骤,包括:采用单声道、8bit、16KHz采样所述语音信息的语音流;以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。优选地,所述识别目标关键词的步骤之后,所述搜索包含所述目标关键词的标题信息的步骤之前,还包括:显示至少两个目标关键词,以供用户选择;根据用户的选择,确定待搜索的目标关键词。优选地,对输入的语音信息进行预处理,获得待识别的声纹数据的步骤之后,包括:判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。优选地,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。优选地,搜索包含所述目标关键词的标题信息的步骤具体,包括:判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。优选地,搜索包含所述目标关键词的标题信息的步骤具体,包括:判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;在对应性别的信息专区中搜索包含所述目标关键词的标题信息。优选地,按预设规则推荐给用户的步骤具体,包括:按时间先后或浏览量大小将搜索到的标题信息展示给用户。相应地,本专利技术实施例提供了一种基于声纹搜索的信息推荐装置,包括:预处理单元,用于对输入的语音信息进行预处理,获得待识别的声纹数据;特征提取单元,用于提取所述声纹数据的韵律特征;关键词识别单元,用于根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;搜索推荐单元,用于搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。优选地,所述预处理单元,包括:采样单元,用于采用单声道采样所述语音信息的语音流;分帧单元,用于以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;计算单元,用于计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。优选地,还包括:关键词确定单元,用于显示至少两个目标关键词,以供用户选择;根据用户的选择,确定待搜索的目标关键词。优选地,包括:与所述预处理单元相连的账号登陆单元,用于判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。优选地,还包括:与所述搜索推荐单元、所述账号登陆单元分别相连的历史记录单元,用于将推荐给用户的标题信息的搜索记录存储到所述用户账户的历史搜索记录之中。优选地,还包括:与所述搜索推荐单元、所述账号登陆单元分别相连的阅读记录单元,用于将用户点选阅读的标题信息存储到所述用户账户的历史阅读记录之中。优选地,还包括:与所述搜索推荐单元、所述账号登陆单元分别相连的收藏记录单元,用于将用户点选收藏的标题信息存储到所述用户账户的书签栏之中。优选地,所述搜索推荐单元,包括:年龄判断单元,用于判断所述语音信息的说话人的年龄,将所述说话人标记为成年人或儿童;在对应的成年人或儿童信息专区中搜索包含所述目标关键词的标题信息。优选地,所述搜索推荐单元,包括:性别判断单元,用于判断所述语音信息的说话人的性别,将所述说话人标记为男生或女生;在对应性别的信息专区中搜索包含所述目标关键词的标题信息。优选地,所述搜索推荐单元,包括:标题展示单元,用于按时间先后或浏览量大小将搜索到的标题信息展示给用户。相对于现有技术,本专利技术提供的方案,首先,对输入的语音信息进行预处理,获得待识别的声纹数据。例如,用户按下语音键,同时输入语音信息,系统经过去噪等预处理后获得待识别的声纹数据。然后,提取所述声纹数据的韵律特征。需要说明的是,声纹特征包括声学特征、韵律特征和词法特征等。其中,“韵律特征”又叫“超音质特征”或“超音段特征”,指的是语音中除音质特征之外的音高、音长和音强方面的变化。韵律是人类自然语言的一个典型特征,具有许多跨语言的共同特点,比如:音高下倾、重读、停顿等都普遍存在于不同的语言之中。另外,由于韵律特征提取方便,容易分析,而本专利技术仅通过提取韵律特征进行分析,分析速度快。为了达到分析准确的目标,本专利技术预设的声纹模型库,包含以韵母作为索引的关键词词库。根据所述韵律特征查找声纹模型库,识别目标关键词。从而实现快速、准确地将语音信息转换成文字信息。最后,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。其中,所述标题信息,包括书籍、新闻、文章等名称及其摘要的内容信息。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种基于声纹搜索的信息推荐方法的流程图。图2为本专利技术一种基于声纹搜索的信息推荐方法的实施例流程图。图3为本专利技术一种基于声纹搜索的信息推荐装置的示意图。图4为本专利技术一种基于声纹搜索的信息推荐装置的实施例示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下本文档来自技高网...
【技术保护点】
一种基于声纹搜索的信息推荐方法,其特征在于,包括:对输入的语音信息进行预处理,获得待识别的声纹数据;提取所述声纹数据的韵律特征;根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。
【技术特征摘要】
1.一种基于声纹搜索的信息推荐方法,其特征在于,包括:对输入的语音信息进行预处理,获得待识别的声纹数据;提取所述声纹数据的韵律特征;根据所述韵律特征查找声纹模型库,识别目标关键词,其中所述声纹模型库包含以韵母作为索引的关键词词库;搜索包含所述目标关键词的标题信息,按预设规则推荐给用户。2.根据权利要求1所述的基于声纹搜索的信息推荐方法,其特征在于,所述对输入的语音信息进行预处理,获得待识别的声纹数据的步骤,包括:采用单声道采样所述语音信息的语音流;以256个采样点为一帧,按128个采样点为音框之间的重迭单位,对所述语音流进行分帧;计算各帧语音数据的累积能量,如果连续语音帧累积能量大于预设静音阈值,则采纳该段连续语音帧为待识别的声纹数据。3.根据权利要求1所述的基于声纹搜索的信息推荐方法,其特征在于,所述识别目标关键词的步骤之后,所述搜索包含所述目标关键词的标题信息的步骤之前,还包括:显示至少两个目标关键词,以供用户选择;根据用户的选择,确定待搜索的目标关键词。4.根据权利要求1所述的基于声纹搜索的信息推荐方法,其特征在于,对输入的语音信息进行预处理,获得待识别的声纹数据的步骤之后,包括:判断当前的声纹数据是否与用户账户预先存储的声纹数据相符,如果相符,则登录所述用户账号。5.根据权利要求4所述的基于声纹搜索的信息推荐方法,其特征在于,搜索包含所述目标关键词的标题信息,按预设规则推荐给用户的步骤之后,还包括:将推荐给用户的标题信息的搜索记录存储到所...
【专利技术属性】
技术研发人员:何坚强,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。