本公开公开了一种视频内容标签的建立方法和系统,所述方法包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。
【技术实现步骤摘要】
本公开涉及云计算
,尤其涉及种视频内容标签的建立方法和系统。
技术介绍
云计算平台中每个视频的内容标签健全与否对于实现海量视频的管理、分析以及推荐即为重要。对于一些商业性的综合视频播放网站(例如乐视网、爱奇艺网、土豆优酷网)来说,很多视频由于上传时间过早等原因,其内容标签往往残缺不全,为了补全这些残缺的内容标签,这些商业性的综合视频播放网站通常采用人工方式对每个视频逐个确认其内容标签是否健全,如有残缺则补全该内容标签,这种视频内容标签的健全方式需要耗费大量的人力、物力、财力,尤其是在云计算中对海量视频的内容标签进行确认、补全时,其工作量太过庞大而无法进行。另外,对于一些专业性的类别视频播放网站(例如播放教学视频的教育平台),具有自己的一套视频管理系统,但由于自身能力有限,不具备长程转码能力,当其想上传一个视频时,需要利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台上,当其需要播放该视频时,只需要从视频服务提供商的CDN平台上取到该视频的网络地址即可实现播放。由于ID一般由一串无意义的字母、数字构成(每个视频的ID是唯一的),因此对于视频服务提供商来讲,存储于其云平台中的该视频的内容标签仅仅为一串无意义的字母、数字。因此,若视频服务提供商想对这种类型的视频补全其内容标签无疑是难上加难。
技术实现思路
本公开的目的是提供一种使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。根据本公开的一个方面,提供了一种视频内容标签的建立方法,包括以下步骤:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。进一步,所述的视频内容标签的建立方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。进一步,所述的视频内容标签的建立方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签的步骤包括:根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。进一步,所述的视频内容标签的建立方法,其中,在所述得到二级关键词集合的步骤之后,还包括以下步骤:根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重;根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。进一步,所述的视频内容标签的建立方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤的步骤之前,还包括以下步骤:将分词词性表存储于云服务器中,并更新所述分词词性表;将停用词表存储于云服务器中,并更新所述停用词表。根据本公开的另一个方面,提供了一种视频内容标签的建立系统,包括
以下模块:网络地址获取模块,用于获取存储于云服务器中的视频的网络地址;播放网页获取模块:用于根据所述视频的网络地址,获取当前视频的播放网页;描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。进一步,所述的视频内容标签的建立系统,其中,所述描述信息包括视频的标题和/或视频的内容简介。进一步,所述的视频内容标签的建立系统,其中,所述视频内容标签提取模块包括:分词模块和停用词过滤模块;所属分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。进一步,所述的视频内容标签的建立系统,其中,所述视频内容标签提取模块,还包括常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。进一步,所述的视频内容标签的建立系统,还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块;所述分词词性表更新模块,用于更新所述分词词性表;所述停用词表更新模块,用于更新所述停用词表。本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。附图说明图1是本公开视频内容标签的建立方法的步骤流程图;图2是本公开视频内容标签的建立方法中基于所述描述信息进行关键字提取的步骤流程图;图3是本公开视频内容标签的建立系统的模块关系示意图;图4是本公开视频内容标签的建立系统中视频内容标签提取模块的模块关系示意图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本公开进一步详细说明。应当前理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在对本公开的具体实施方式介绍之前,首先介绍本公开所基于的前题条件。本公开中所述的云服务器为具有长程视频转码能力的视频服务提供商(例如乐视云平台)所搭建的云平台服务器群集中的一台或多台。一些使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站(例如播放教学视频的教育平台),其网站上具有其上传至云平台服务器群集中的视频的播放网页,且该视频播放网站在所述视频的播放网页中以自然语言为该视频编辑了标题、内容介绍等描述信息。图1是本公开视频内容标签的建立方法的步骤流程图。如图1所示,视频内容标签的建立方法包括以下步骤。步骤S1,获取存储于云服务器中的视频的网络地址。在步骤S1之前,使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站,将其网站上的视频利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提
供商的CDN平台中的一台或多台服务器(即云服务器),所述云服务器对所述视频进行存储。需要说明的是,由于视频服务提供商通常为大量的视频播放网站提供长程转码的服务,因此视频服务提供商的云服务器中存储有海量的视频、每个视频的ID以及每个视频的网络地址。因此,在步骤S1中,仅仅需要将所述视频的网络地址获取到即可。步骤S2,根据所述视频的网络地址,获取当前视频的播放网页。获取当前视频的播放网页是通过网页爬取算法获取。所是述网页爬取算法,指的基于现有技术中的网络爬虫的算法,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。步骤S3,从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息。所述描述信息包括当前视频的标题和/或视频的内容简介。在视频播本文档来自技高网...
【技术保护点】
一种视频内容标签的建立方法,包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。
【技术特征摘要】
1.一种视频内容标签的建立方法,包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。2.根据权利要求1所述的方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。3.根据权利要求1或2所述的方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签包括:根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。4.根据权利要求3所述的方法,其中,在所述得到二级关键词集合之后,还包括:根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重;根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。5.根据权利要求3所述的方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤之前,还包括:将分词词性表存储于云服务器中,并更新所述分词词性表;将停用词表存储于云服务器中,并更新所述停用词表。6.一种视频内容标签的建立系统,其特征在于,包括以下模块:网络地址获取模块,用于获取存...
【专利技术属性】
技术研发人员:张立宁,余婧,
申请(专利权)人:乐视控股北京有限公司,乐视云计算有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。