一种基于语音识别的媒体搜索方法及装置制造方法及图纸

技术编号：9991026 阅读：103 留言：0更新日期：2014-05-02 04:30

本发明专利技术提供一种基于语音识别的媒体搜索方法及装置，该方法包括步骤：获取媒体的内容标引和元数据信息；关联所述内容标引和元数据信息建立媒体知识库；解析采集到的用户查询语音得到对应的语音识别文本；根据所述语音识别文本对所述媒体知识库进行媒体搜索。本发明专利技术所公开的一种基于语音识别的媒体搜索方法及装置，在前端采用语音识别给用户提供更加方便的交互方式，在后端对媒体内容进行识别，并构建相应的知识库，最终达到用户通过语音对媒体内容进行搜索的目的；相比于传统的搜索方式，在客户端给用户提供语音交互方式，使得交互更加方便自然；在服务端对媒体进行基于内容识别和基于自然语言搜索，使得用户对媒体内容的搜索更加精确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音识别的媒体搜索方法及装置
本专利技术涉及数据信息处理
，尤其涉及一种基于语音识别的媒体搜索方法及装置。
技术介绍
随着互联网和数字多媒体内容的发展，数字媒体尤其是数字视频成爆炸性增长的态势，如何对数字媒体进行快速有效的检索具有重要的应用价值。由于数字媒体是非结构化的数据，要想达到对数字媒体内容进行检索的需求，需要对数字媒体的内容进行识别，比如将音频中的语音识别为文本，视频中的字幕识别为文本，然后利用文本进行检索。另一方面，移动互联网蓬勃发展，人与智能设备之间的交互成为重要研究方向。语音交互作为最自然方便的的一种人机交互的手段，受到了企业的重视和用户的喜爱。语音识别技术（AutomaticSpeechRecognition,ASR），也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如基于媒体内容和语音智能交互媒体搜索方法。
技术实现思路
本专利技术主要解决的技术问题是如何提供一种基于语音识别的媒体搜索方法及装置，实现用户通过语音对媒体内容进行更加精确的搜索。为此目的，本专利技术提供了一种基于语音识别的媒体搜索方法，该方法包括以下步骤：获取媒体的内容标引和元数据信息；关联所述内容标引和元数据信息建立媒体知识库；解...
一种基于语音识别的媒体搜索方法及装置

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的媒体搜索方法，其特征在于，包括步骤：获取媒体的内容标引和元数据信息；关联所述内容标引和元数据信息建立媒体知识库；解析采集到的用户查询语音得到对应的语音识别文本；根据所述语音识别文本对所述媒体知识库进行媒体搜索；所述获取媒体的内容标引，具体包括：将接收到的媒体转码为统一的编码格式；对转码后的媒体进行节目起止点的标记得到节目层的标引；对所述节目层中的各节目进行片段的切分得到片段层的标引；对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引；所述对转码后的媒体进行节目起止点的标记得到节目层的标引，包括：搜集需要做标记的所有节目的媒体文件，每个文件对应一个节目；提取媒体文件内容的指纹特征，并保存为相应的模板；将待标记的媒体文件与模板进行匹配，当媒体文件的某部分和某个模板匹配上时，匹配上的媒体文件的片段即为该模板所对应的节目在媒体文件中的起止时间；对于每一个节目，进行镜头片段的切分，得到片段层的标引，步骤如下：选取特征描述帧图像，提取每帧图像的彩色RGB空间直方图作为该帧图像的特征；计算帧间差异，即计算帧间彩色RGB空间直方图的差异；选取策略分析这些差异并确定镜头边界，片段层的标引即为镜头的开始和结果时间点。2.根据权利要求1所述的方法，其特征在于，所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引，具体包括：获取所述语音识别的识别路径和所述识别路径对应的语音识别文本；获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本；合并所述语音识别文本和字幕识别文本，得到文字层的标引。3.根据权利要求1所述的方法，其特征在于，所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。4.根据权利要求1所述的方法，其特征在于，所述解析采集到的用户查询语音得到对应的语音识别文本，具体包括：接收用户查询语音的音频信号；将解码后的所述音频信号进行分段；对每一段音频信号分别进行语音识别获得段识别文本；合并每一段音频信号的所述段识别文本得到所述语音识别文本。5.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别文本对所述媒体知识库进行媒体搜索，具体包括：根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；根据提取的元数据信息在所述媒体知识库中进行元数据搜索；根据预设的关键词库提取所述语音识别文本中存在的关键词信息；根据所述关键词信息在所述媒体知识库中进行关键词搜索；合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索...

【专利技术属性】
技术研发人员：高鹏，
申请(专利权)人：北京紫冬锐意语音科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人