一种基于语音识别的媒体搜索方法及装置制造方法及图纸

技术编号:9991026 阅读:97 留言:0更新日期:2014-05-02 04:30
本发明专利技术提供一种基于语音识别的媒体搜索方法及装置,该方法包括步骤:获取媒体的内容标引和元数据信息;关联所述内容标引和元数据信息建立媒体知识库;解析采集到的用户查询语音得到对应的语音识别文本;根据所述语音识别文本对所述媒体知识库进行媒体搜索。本发明专利技术所公开的一种基于语音识别的媒体搜索方法及装置,在前端采用语音识别给用户提供更加方便的交互方式,在后端对媒体内容进行识别,并构建相应的知识库,最终达到用户通过语音对媒体内容进行搜索的目的;相比于传统的搜索方式,在客户端给用户提供语音交互方式,使得交互更加方便自然;在服务端对媒体进行基于内容识别和基于自然语言搜索,使得用户对媒体内容的搜索更加精确。

【技术实现步骤摘要】
一种基于语音识别的媒体搜索方法及装置
本专利技术涉及数据信息处理
,尤其涉及一种基于语音识别的媒体搜索方法及装置。
技术介绍
随着互联网和数字多媒体内容的发展,数字媒体尤其是数字视频成爆炸性增长的态势,如何对数字媒体进行快速有效的检索具有重要的应用价值。由于数字媒体是非结构化的数据,要想达到对数字媒体内容进行检索的需求,需要对数字媒体的内容进行识别,比如将音频中的语音识别为文本,视频中的字幕识别为文本,然后利用文本进行检索。另一方面,移动互联网蓬勃发展,人与智能设备之间的交互成为重要研究方向。语音交互作为最自然方便的的一种人机交互的手段,受到了企业的重视和用户的喜爱。语音识别技术(AutomaticSpeechRecognition,ASR),也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如基于媒体内容和语音智能交互媒体搜索方法。
技术实现思路
本专利技术主要解决的技术问题是如何提供一种基于语音识别的媒体搜索方法及装置,实现用户通过语音对媒体内容进行更加精确的搜索。为此目的,本专利技术提供了一种基于语音识别的媒体搜索方法,该方法包括以下步骤:获取媒体的内容标引和元数据信息;关联所述内容标引和元数据信息建立媒体知识库;解析采集到的用户查询语音得到对应的语音识别文本;根据所述语音识别文本对所述媒体知识库进行媒体搜索。其中,所述获取媒体的内容标引,具体包括:将接收到的媒体转码为统一的编码格式;对转码后的媒体进行节目起止点的标记得到节目层的标引;对所述节目层中的各节目进行片段的切分得到片段层的标引;对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引。其中,所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引,具体包括:获取所述语音识别的识别路径和所述识别路径对应的语音识别文本;获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本;合并所述语音识别文本和字幕识别文本,得到文字层的标引。其中,所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。其中,所述解析采集到的用户查询语音得到对应的语音识别文本,具体包括:接收用户查询语音的音频信号;将解码后的所述音频信号进行分段;对每一段音频信号分别进行语音识别获得段识别文本;合并每一段音频信号的所述段识别文本得到所述语音识别文本。其中,所述根据所述语音识别文本对所述媒体知识库进行媒体搜索,具体包括:根据预设的元数据词典提取所述语音识别文本中存在的元数据信息;根据提取的元数据信息在所述媒体知识库中进行元数据搜索;根据预设的关键词库提取所述语音识别文本中存在的关键词信息;根据所述关键词信息在所述媒体知识库中进行关键词搜索;合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索结果。此外,本专利技术还提出一种基于语音识别的媒体搜索装置,包括:获取模块,关联模块、解析模块和搜索模块;获取模块,用于获取媒体的内容标引和元数据信息;关联模块,用于关联所述获取模块获取到的内容标引和元数据信息建立媒体知识库;解析模块,用于解析采集到的用户查询语音得到对应的语音识别文本;搜索模块,用于根据所述语音识别文本对所述媒体知识库进行媒体搜索。其中,所述获取模块包括:转码单元,标记单元,切分单元和识别单元;转码单元,用于将接收到的媒体转码为统一的编码格式;标记单元,用于对转码后的媒体进行节目起止点的标记得到节目层的标引;切分单元,用于对所述媒体中的节目进行片段的切分得到片段层的标引;识别单元,用于对所述节目中的片段分别进行语音识别和字幕识别得到文字层的标引。其中,所述解析模块包括:接收单元、解码单元、分段单元、识别单元和合并单元;接收单元,用于接收用户查询语音的音频信号;解码单元,用于对所述音频信号进行解码;分段单元,用于将解码后的所述音频信号进行分段;识别单元,用于对每一段音频信号分别进行语音识别获得段识别文本;合并单元,用于合并每一段音频信号的所述段识别文本得到所述语音识别文本。其中,所述搜索模块包括:第一提取单元、第一搜索单元、第二提取单元、第二搜索单元和合并单元;第一提取单元,用于根据预设的元数据词典提取所述语音识别文本中存在的元数据信息;第一搜索单元,用于根据提取的元数据信息在所述媒体知识库中进行元数据搜索;第二提取单元,用于根据预设的关键词库提取所述语音识别文本中存在的关键词信息;第二搜索单元,用于根据所述关键词信息在所述媒体知识库中进行关键词搜索;合并单元,用于合并所述第一搜索单元的元数据搜索结果和所述第二搜索单元的关键词搜索结果得到完整的搜索结果。通过采用本专利技术所公开的一种基于语音识别的媒体搜索方法及装置,在前端采用语音交互从而给用户提供更加方便的交互方式,在后端对媒体内容进行识别,并构建相应的知识库,最终达到用户通过语音对媒体内容进行搜索的目的;相比于传统的搜索方式,该方法在客户端给用户提供语音交互方式,使得交互更加方便自然;在服务端对媒体进行基于内容识别和基于自然语言搜索,使得用户对媒体内容的搜索更加精确。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1:是本专利技术一种基于语音识别的媒体搜索方法的流程图;图2:是本专利技术实施例一记载的一种基于语音识别的媒体搜索方法的流程框图;图3:是本专利技术一种基于语音识别的媒体搜索装置的模块图。具体实施方式下面将结合本专利技术的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例一提出了一种基于语音识别的媒体搜索方法,如图1所示,包括以下步骤:步骤101,获取媒体的内容标引和元数据信息;步骤102,关联所述内容标引和元数据信息建立媒体知识库;步骤103,解析采集到的用户查询语音得到对应的语音识别文本;步骤104,根据所述语音识别文本对所述媒体知识库进行媒体搜索。其中,所述获取媒体的内容标引,具体包括:将接收到的媒体转码为统一的编码格式;对转码后的媒体进行节目起止点的标记得到节目层的标引;对所述节目层中的各节目进行片段的切分得到片段层的标引;对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引。本实施例中,如图2所示,对从不同信号源获取的媒体进行内容加工,得到关于媒体内容的标引,具体步骤包括:将从不同信号源获取的媒体转码到统一的格式。采集媒体数据,既可以通过广播电视采集卡,采集广播电视信号,也可以通过网络爬虫抓取网络上的视频,也可以通过其他方式,比如直接从存储介本文档来自技高网...
一种基于语音识别的媒体搜索方法及装置

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的媒体搜索方法,其特征在于,包括步骤:获取媒体的内容标引和元数据信息;关联所述内容标引和元数据信息建立媒体知识库;解析采集到的用户查询语音得到对应的语音识别文本;根据所述语音识别文本对所述媒体知识库进行媒体搜索;所述获取媒体的内容标引,具体包括:将接收到的媒体转码为统一的编码格式;对转码后的媒体进行节目起止点的标记得到节目层的标引;对所述节目层中的各节目进行片段的切分得到片段层的标引;对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引;所述对转码后的媒体进行节目起止点的标记得到节目层的标引,包括:搜集需要做标记的所有节目的媒体文件,每个文件对应一个节目;提取媒体文件内容的指纹特征,并保存为相应的模板;将待标记的媒体文件与模板进行匹配,当媒体文件的某部分和某个模板匹配上时,匹配上的媒体文件的片段即为该模板所对应的节目在媒体文件中的起止时间;对于每一个节目,进行镜头片段的切分,得到片段层的标引,步骤如下:选取特征描述帧图像,提取每帧图像的彩色RGB空间直方图作为该帧图像的特征;计算帧间差异,即计算帧间彩色RGB空间直方图的差异;选取策略分析这些差异并确定镜头边界,片段层的标引即为镜头的开始和结果时间点。2.根据权利要求1所述的方法,其特征在于,所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引,具体包括:获取所述语音识别的识别路径和所述识别路径对应的语音识别文本;获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本;合并所述语音识别文本和字幕识别文本,得到文字层的标引。3.根据权利要求1所述的方法,其特征在于,所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。4.根据权利要求1所述的方法,其特征在于,所述解析采集到的用户查询语音得到对应的语音识别文本,具体包括:接收用户查询语音的音频信号;将解码后的所述音频信号进行分段;对每一段音频信号分别进行语音识别获得段识别文本;合并每一段音频信号的所述段识别文本得到所述语音识别文本。5.根据权利要求1所述的方法,其特征在于,所述根据所述语音识别文本对所述媒体知识库进行媒体搜索,具体包括:根据预设的元数据词典提取所述语音识别文本中存在的元数据信息;根据提取的元数据信息在所述媒体知识库中进行元数据搜索;根据预设的关键词库提取所述语音识别文本中存在的关键词信息;根据所述关键词信息在所述媒体知识库中进行关键词搜索;合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索...

【专利技术属性】
技术研发人员:高鹏
申请(专利权)人:北京紫冬锐意语音科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1