一种基于数据特征降维编码的流媒体内容分发方法技术

技术编号:22568375 阅读:39 留言:0更新日期:2019-11-16 13:30
本发明专利技术提供一种基于数据特征降维编码的流媒体内容分发方法,其包括:步骤1)提取服务端用户点播内容数据,并做历史内容分析,获得特征向量;步骤2)将步骤1)中的特征向量输入Word2Vec网络中,利用改进的Word2Vec模型训练内容向量;其中,改进的Word2Vec模型是对原Word2Vec模型的训练与标签数据的改进;步骤3)利用自编码器模型对步骤2)中的内容向量进行自编码训练;步骤4)提取自编码器模型当中的Encoder部分,对步骤3)完成训练的内容向量进行降维编码,生成降维编码内容向量;步骤5)利用k‑means模型对步骤4)的降维编码内容向量进行聚类;根据聚类结果,将流媒体内容分成n个类别,并分别分发到对应的内容分发网络的n个边缘服务器中。

A method of streaming media content distribution based on data feature dimension reduction coding

The invention provides a streaming media content distribution method based on data feature dimensionality reduction coding, which includes: Step 1) extracting content data on demand of server end users, analyzing historical content, obtaining feature vector; step 2) inputting feature vector in step 1) into word2vec network, training content vector by using improved word2vec model; wherein, the improved word2vec model is to original w Training of ord2vec model and improvement of label data; step 3) self coding training of content vector in step 2) using self encoder model; step 4) extracting encoder part from encoder model, and reducing dimension coding of content vector in step 3) completing training to generate reduced dimension coding content vector; step 5) using K \u2011 means model to reduce dimension coding content direction in step 4) According to the clustering results, the streaming media content is divided into n categories and distributed to n edge servers of the corresponding content distribution network.

【技术实现步骤摘要】
一种基于数据特征降维编码的流媒体内容分发方法
本专利技术涉及流媒体内容分发、内容分发网络与深度学习算法的
,特别涉及一种基于数据特征降维编码的流媒体内容分发方法。
技术介绍
随着互联网技术的飞速发展,4G技术逐渐成熟,以及5G技术的即将到来。网络资源内容也越来越丰富,特别是以网络电视,网络视频为主的流媒体内容使得互联网带宽的压力越来越大。内容分发网络(CDN)在很大的程度上提升了流媒体内容的服务质量以及用户的体验。然而,CDN也存在局限性。由于边缘服务器的存储容量有限,不能存储所有网络资源,边缘服务器中存储的流媒体内容是否合适,是否满足用户需求,就成为CDN性能优劣的主要体现。目前,现有技术提出了一种基于绝对访问量与相对访问量的流媒体内容分发策略,该方案基于内容访问的绝对数量以及变化趋势,对流媒体内容进行分发。但是,在此方案中忽略了不同地区用户的兴趣点以及流媒体内容之间的相关性,并且在判断是否分发服务端中新的流媒体内容时,需要大量的访问数据。另外,现有技术还提出了一种基于用户兴趣模型的流媒体内容分发策略,该方案对日志内容利用人工内容标签进行区分,然后基于标签的相似度,对流媒体内容分发进行分发。该方法对流媒体内容的分类完全依赖于内容标签的准确性,忽略了用户访问与流媒体内容之间的相关性。
技术实现思路
本专利技术的目的在于,为解决现有的流媒体内容分发方法存在上述的问题,本专利技术提供了一种基于数据特征降维编码的流媒体内容分发方法,利用到了用户在网络当中的浏览记录数据,使用深度学习模型当中的Word2Vec模型以及自编码器模型,以及传统机器学习当中的K-means模型,使分发的内容分发准确率得到提升,提高聚类的准确率。所述方法具体包括:步骤1)提取服务端用户点播内容数据,并做历史内容分析,获得特征向量;步骤2)将步骤1)中的特征向量输入Word2Vec网络中,利用改进的Word2Vec模型训练内容向量;其中,Word2Vec模型是一种类型的深度学习模型;所述改进的Word2Vec模型是通过在标签数据上同时加入了用户IP信息与历史播放内容,从而对原Word2Vec模型的训练与标签数据进行了改进;步骤3)利用自编码器模型对步骤2)中的内容向量进行自编码训练;步骤4)提取自编码器模型当中的Encoder部分,对步骤3)完成训练的内容向量进行降维编码,生成降维编码内容向量;步骤5)利用k-means模型对步骤4)的降维编码内容向量进行聚类;根据聚类结果,将流媒体内容分成n个类别,并分别分发到对应的内容分发网络(CDN)的n个边缘服务器中。在上述技术方案中,所述步骤1)具体包括:提取服务端中的用户点播内容数据,对每个用户播放内容整理为用户IP信息+历史播放内容信息的形式,再对其进行独热操作,即One-Hot操作,构成特征向量,用于训练内容向量。在上述技术方案中,所述特征向量包括:模型输入向量和模型输出向量;模型输入向量为服务端用户点播内容数据经过onc后得到的向量;所述模型输出向量为将服务端用户的历史观看记录进行onc后并将其拼接后得到的向量;在上述技术方案中,所述步骤2)具体包括:分别将模型输入向量和模型输出向量置于Word2Vec网络中,经过神经网络训练,得到转移矩阵,将模型输入向量与所述转移矩阵相乘,得到通过Word2Vec模型之后输出的内容向量。在上述技术方案中,所述步骤3)具体包括:利用步骤2)中的内容向量,通过神经网络训练,训练自编码器模型;其中,所述自编码器模型包括:输入层、若干隐含层、中间层和输出层;中间层位于输入层和输出层之间,输入层与中间层之间设有若干隐含层,中间层与输出层之间对称地设有若干隐含层。其中,在自编码器网络中,输入层和输出层均为步骤2)中的内容向量;自编码器网络为中间向量维度少,两侧向量维度多的无激活层的前馈神经网络。在上述技术方案中,所述步骤4)具体包括:提取出步骤3)的自编码器模型当中的Encoder部分,对步骤2)产生的内容向量进行降维编码,采用高维度向量作为输入,仅经过自编码器的Encoder部分,即前半部分;而不经过其Decoder部分,即后半部分;将中间隐含层生成的低维度向量作为输出,实现降维编码,最终得到编码后的向量。本专利技术的优点在于:本专利技术相比于单独使用传统机器学习聚类方法,减少了手动特征工程的数量,避免了k-means等传统机器学习模型当中特征向量权重不均等问题。另外,在本专利技术中,利用到了向量化思想,将每个内容文件,利用深度学习模型对其进行向量化,然后再利用传统机器学习的方法对其进行聚类,然后通过根据聚类结果,通过CDN分发到边缘服务器当中。利用生成的向量训练一个自编码器,然后利用自编码器的encoder部分,对生成向量进行编码,这样做可以减少向量不同维度之间的差异,使得特征向量每个维度整体分布更加平滑,更利于之后的k-means聚类。附图说明图1是本专利技术的一种基于数据特征降维编码的流媒体内容分发方法的流程图;图2是利用改进的Word2Vec模型训练内容向量过程示意图;图3是利用AutoEncoder模型自编码训练示意图;图4是使用训练好的AutoEncoder生成向量的示意图;图5是k-means聚类示意图。具体实施方式以下结合附图对本专利技术作进一步的详细说明。为了便于理解,首先对本专利技术中所涉及的多个概念做统一描述。1、onc:one-hot编码;2、w2v:Word2Vec模型;3、train:训练数据,这里指的是从原始数据中提取的内容向量经过onc编码之后的向量;4、AutoEncoder模型:自编码器模型,即AE模型;其中,AutoEncoder模型的Encoder部分为编码部分,AutoEncoder模型的Decoder部分为解码部分‘’5、km-n:具有n个簇的k-means模型,其中,n应该为CDN当中边缘服务器的数量。下面对本专利技术具体流程进行详细说明:如图1所示,本专利技术提供了一种基于数据特征降维编码的流媒体内容分发方法,利用到了用户在网络当中的浏览记录数据,使用到深度学习模型当中的Word2Vec以及自编码器模型,以及传统机器学习当中的K-means模型,使分发的内容分发准确率得到提升,提高聚类的准确率。所述方法具体包括:步骤1)提取服务端用户点播内容数据,并做历史内容分析,获得特征向量;步骤2)将步骤1)中的特征向量输入Word2Vec网络中,利用改进的Word2Vec模型训练内容向量;其中,Word2Vec模型是一种类型的深度学习模型;所述改进的Word2Vec模型是通过在标签数据上同时加入了用户IP信息与历史播放内容,从而对原Word2Vec模型的训练与标签数据进行了改进;步骤3)利用自编码器模型对步骤2)中的内容向量进行自编码训练;步骤4)提取自编码器模型当中的Encoder部分,对步骤3)完成训本文档来自技高网...

【技术保护点】
1.一种基于数据特征降维编码的流媒体内容分发方法,其特征在于,其包括:/n步骤1)提取服务端用户点播内容数据,并做历史内容分析,获得特征向量;/n步骤2)将步骤1)中的特征向量输入Word2Vec网络中,利用改进的Word2Vec模型训练内容向量;/n步骤3)利用自编码器模型对步骤2)中的内容向量进行自编码训练;/n步骤4)提取自编码器模型当中的Encoder部分,对步骤3)完成训练的内容向量进行降维编码,生成降维编码内容向量;/n步骤5)利用k-means模型对步骤4)的降维编码内容向量进行聚类;根据聚类结果,将流媒体内容分成n个类别,并分别分发到对应的内容分发网络的n个边缘服务器中。/n

【技术特征摘要】
1.一种基于数据特征降维编码的流媒体内容分发方法,其特征在于,其包括:
步骤1)提取服务端用户点播内容数据,并做历史内容分析,获得特征向量;
步骤2)将步骤1)中的特征向量输入Word2Vec网络中,利用改进的Word2Vec模型训练内容向量;
步骤3)利用自编码器模型对步骤2)中的内容向量进行自编码训练;
步骤4)提取自编码器模型当中的Encoder部分,对步骤3)完成训练的内容向量进行降维编码,生成降维编码内容向量;
步骤5)利用k-means模型对步骤4)的降维编码内容向量进行聚类;根据聚类结果,将流媒体内容分成n个类别,并分别分发到对应的内容分发网络的n个边缘服务器中。


2.根据权利要求1所述的流媒体内容分发方法,其特征在于,所述步骤1)具体包括:提取服务端中的用户点播内容数据,对每个用户播放内容整理为用户IP信息+历史播放内容信息的形式,再对其进行独热操作,构成特征向量,用于训练内容向量。


3.根据权利要求2所述的流媒体内容分发方法,其特征在于,所述特征向量包括:模型输入向量和模型输出向量;模型输入向量为服务端用户点播内容数据经过onc后得到的向量;所述模型输出向量为将服务端用户的历史观看记录进行onc后并将其拼接后...

【专利技术属性】
技术研发人员:盛益强佟泽雨刘学邓浩江
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利