一种多媒体资源的截取方法和装置制造方法及图纸

技术编号：24853649 阅读：46 留言：0更新日期：2020-07-10 19:07

本申请涉及一种多媒体资源的截取方法和装置，其中，该方法包括：从多媒体资源中获取音频资源，并将多媒体资源中的视频资源划分为多个镜头资源；从音频资源中提取目标音频点位信息，其中，目标音频点位信息用于指示属于目标音频类型的音频资源在音频资源中的位置信息；从多个镜头资源中确定目标音频点位信息中每个目标音频点位信息所落入的镜头资源，得到一个或者多个目标镜头资源；从多媒体资源中截取一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段，得到目标多媒体资源片段。本申请解决了相关技术中从多媒体数据中截取满足条件的片段的效率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种多媒体资源的截取方法和装置
本申请涉及计算机领域，尤其涉及一种多媒体资源的截取方法和装置。
技术介绍
视频中的精彩片段往往零散的分布在多个时间段中，用户在观看综艺节目时，很多时候需要通过评论中的留言，手动寻找这些精彩片段，这就在一定程度上影响了用户的观看体验。而且，目前视频精彩片段的选取和推送一般都是靠人工筛选的方式来完成的，这也会消耗很多的人力，影响生产效率。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请提供了一种多媒体资源的截取方法和装置，以至少解决相关技术中从多媒体数据中截取满足条件的片段的效率较低的技术问题。根据本申请实施例的一个方面，提供了一种多媒体资源的截取方法，包括：从多媒体资源中获取音频资源，并将所述多媒体资源中的视频资源划分为多个镜头资源，其中，所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源；从所述音频资源中提取目标音频点位信息，其中，所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息；从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源，得到一个或者多个目标镜头资源；从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段，得到目标多媒体资源片段。可选地，从所述音频资源中提取所述目标音频点位信息包括：以第一时长为时间间隔，第二时长为步长从音频资源中获取音频片段；检测所述音频片段的音...

【技术保护点】
1.一种多媒体资源的截取方法，其特征在于，包括：/n从多媒体资源中获取音频资源，并将所述多媒体资源中的视频资源划分为多个镜头资源，其中，所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源；/n从所述音频资源中提取目标音频点位信息，其中，所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息；/n从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源，得到一个或者多个目标镜头资源；/n从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段，得到目标多媒体资源片段。/n

【技术特征摘要】
1.一种多媒体资源的截取方法，其特征在于，包括：
从多媒体资源中获取音频资源，并将所述多媒体资源中的视频资源划分为多个镜头资源，其中，所述多个镜头资源中的每个镜头资源包括在同一镜头下拍摄的资源；
从所述音频资源中提取目标音频点位信息，其中，所述目标音频点位信息用于指示属于目标音频类型的音频资源在所述音频资源中的位置信息；
从所述多个镜头资源中确定所述目标音频点位信息中每个目标音频点位信息所落入的镜头资源，得到一个或者多个目标镜头资源；
从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段，得到目标多媒体资源片段。

2.根据权利要求1所述的方法，其特征在于，从所述音频资源中提取所述目标音频点位信息包括：
以第一时长为时间间隔，第二时长为步长从音频资源中获取音频片段；
检测所述音频片段的音频类型，得到检测结果；
根据所述检测结果从所述音频资源中提取属于目标音频类型的所述目标音频点位信息。

3.根据权利要求2所述的方法，其特征在于，检测所述音频片段的音频类型，得到检测结果包括：
将所述音频片段输入特征提取模型对所述音频片段进行特征提取，得到所述特征提取模型输出的所述音频片段对应的音频特征；
将所述音频特征输入注意力模型对所述音频特征进行分类，得到所述注意力模型输出的所述检测结果，其中，所述检测结果用于指示所述音频特征属于所述目标音频类型的概率。

4.根据权利要求3所述的方法，其特征在于，根据所述检测结果从所述音频资源中提取属于目标音频类型的所述目标音频点位信息包括：
根据所述音频片段中每个音频片段对应的检测结果确定所述音频资源中每个单位资源所对应的目标结果，其中，所述单位资源的时长为所述第二时长，所述目标结果用于指示所述每个单位资源属于所述目标音频类型的概率；
从所述音频资源所包括的单位资源中获取目标单位资源，其中，所述目标单位资源所对应的所述目标结果高于目标概率，且所述目标单位资源所对应的目标结果高于所述目标单位资源的前一个目标单位资源对应的目标结果和所述目标单位资源的后一个目标单位资源对应的目标结果；
将落入目标时间范围内的所述目标单位资源进行合并，得到所述目标音频点位信息。

5.根据权利要求1所述的方法，其特征在于，从所述多媒体资源中截取所述一个或者多个目标镜头资源中每个目标镜头资源对应的多媒体资源片段，得到目标多媒体资源片段包括：
根据镜头总时长和所述一个或者多个目标镜头资源的位置确定所述每个目标镜头资源所对应的待截取镜头资源，其中，所述待截取镜头资源包括所述每个目标镜头资源和所述每个目标镜头资源的前一个或者多个镜头资源，所述镜头总时长为所述待截取镜头资源的镜头时长，所述镜头总时长落入目标时长范围之间；
从所述多媒体资源中截取所述待截取镜头资...

【专利技术属性】
技术研发人员：王发发，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人