一种训练数据的模型训练方法及装置制造方法及图纸

技术编号:12308457 阅读:122 留言:0更新日期:2015-11-11 17:33
本发明专利技术公开了一种训练数据的模型训练方法及装置,其中该方法包括:获取原始训练数据;对原始训练数据进行聚合,得到聚合训练数据;根据原始训练数据与聚合训练数据建立索引向量,索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;随机读取索引向量的取值,并根据取值从聚合训练数据中获取对应的训练数据;利用获取到的训练数据进行模型训练。本发明专利技术实施例在训练数据聚合的前提下,通过随机读取索引向量取值,可以从聚合训练数据中获取对应的训练数据,保证了用于模型训练的训练数据的随机性,从而可以在节省内存的基础上改善模型训练效果。

【技术实现步骤摘要】

本专利技术属于计算
,尤其涉及一种训练数据的模型训练方法及装置
技术介绍
在线广告的点击率预估在广告投放过程中起着重要的作用,目前业界主要使用简单线性模型如逻辑回归(LR,Logistic Regress1n)等进行广告点击率建模,模型求解过程简洁且较为迅速,可以在一定程度上防止对数据的过度拟合等。虽然LR模型求解简单,但在大数据时代,仍需要更充分地挖掘LR的计算性能。随机梯度下降(SGD,StochasticGradient Descent)算法是常用于训练LR模型的优化算法,其在海量数据的场景下,能更快地达到收敛。在为广告点击率预估生成的训练数据中,往往容易存在大量的重复训练数据,而这些大量的重复数据在很大程度上浪费了存储空间。若将这些重复的训练数据做聚合,只保留一份训练数据的副本,则虽然节省了内存,但因经聚合后相同的数据聚积一处,破坏了数据的均匀分布,不满足数据原始的随机性。而SGD算法需要在保证随机性的训练数据集上才能得到较好的模型训练结果,在基于聚合后的训练数据集上进行训练,往往得到的模型效果不佳。
技术实现思路
本专利技术的目的在于提供一种训练数据的模型训练方法及装置,旨在改善模型训练效果。为解决上述技术问题,本专利技术实施例提供以下技术方案:—种训练数据的模型训练方法,其中包括:获取原始训练数据;对所述原始训练数据进行聚合,得到聚合训练数据;根据所述原始训练数据与所述聚合训练数据建立索引向量,所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;随机读取索引向量的取值,并根据所述取值从所述聚合训练数据中获取对应的训练数据;利用获取到的训练数据进行模型训练。为解决上述技术问题,本专利技术实施例还提供以下技术方案:—种训练数据的模型训练装置,其中包括:获取单元,用于获取原始训练数据;聚合单元,用于对所述原始训练数据进行聚合,得到聚合训练数据;向量建立单元,用于根据所述原始训练数据与所述聚合训练数据建立索引向量,所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;读取单元,用于随机读取索引向量的取值,并根据所述取值从所述聚合训练数据中获取对应的训练数据;训练单元,用于利用获取到的训练数据进行模型训练。相对于现有技术,本实施例,在对原始训练数据进行聚合,得到聚合训练数据的前提下,建立索引向量,该索引向量取值的绝对值用于指示原始训练数据中的训练数据在聚合训练数据中的位置;在进行模型训练时,随机读取索引向量的取值,并根据取值从聚合训练数据中获取对应的训练数据,利用获取到的训练数据进行模型训练;本专利技术实施例,在训练数据聚合的前提下,通过随机读取索引向量取值,可以从聚合训练数据中获取对应的训练数据,保证了用于模型训练的训练数据的随机性,从而可以在节省内存的基础上改善模型训练效果。【附图说明】下面结合附图,通过对本专利技术的【具体实施方式】详细描述,将使本专利技术的技术方案及其它有益效果显而易见。图1a是本专利技术提供的训练数据的模型训练方法的场景示意图;图1b为本专利技术第一实施例提供的训练数据的模型训练方法的流程示意图;图2a为本专利技术第二实施例提供的训练数据的模型训练方法的流程示意图;图2b为本专利技术第二实施例提供的训练数据的模型训练方法中的原始训练数据示意图;图2c为本专利技术第二实施例提供的训练数据的模型训练方法中的聚合训练数据与索引向量的示意图;图3a为本专利技术第三实施例提供的训练数据的模型训练装置的结构示意图;图3b为本专利技术第三实施例提供的训练数据的模型训练装置另一结构示意;图4为本专利技术第四实施例提供的服务器的结构示意图。【具体实施方式】请参照图式,其中相同的组件符号代表相同的组件,本专利技术的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本专利技术具体实施例,其不应被视为限制本专利技术未在此详述的其它具体实施例。在以下的说明中,本专利技术的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本专利技术原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本专利技术实施例提供一种训练数据的模型训练方法以及装置。参见图la,该图为该训练数据的模型训练方法的场景示意图,该训练数据的模型训练方法可应用于广告点击率预估模型的训练系统,该系统可以包括训练数据的模型训练装置,主要用于获取原始训练数据,对原始训练数据进行聚合,得到聚合训练数据;然后根据原始训练数据与聚合训练数据建立索引向量,其中该索引向量取值的绝对值用于指示,原始训练数据中的训练数据在聚合训练数据中的位置;其后,随机读取索引向量的取值,并根据该取值从聚合训练数据中获取对应的训练数据,利用获取到的训练数据进行模型训练,比如对逻辑回归LR等线性模型进行广告点击率建模,以基于训练得到的模型进行广告的点击率预估,等等。此外,该训练数据的模型训练系统还可以包括多个广告业务服务器,主要用于根据点击流数据如用户年龄、用户性别、广告ID(身份标识号码)等生成训练数据;当然,该训练数据的模型训练系统还可以包括在线存储服务器、广告投放装置以及终端等,其中在线存储服务器主要用于对训练数据、广告发布的有关信息等进行存储,广告投放装置主要用于根据训练结果和广告发布的有关信息等进行广告投放,终端主要用于向用户展示投放的广告等。以下将分别进行详细说明。第一实施例在本实施例中,将从训练数据的模型训练装置的角度进行描述,可简称模型训练装置,该模型训练装置具体可以集成在服务器或网关等网络设备中。—种训练数据的模型训练方法,包括:获取原始训练数据;对原始训练数据进行聚合,得到聚合训练数据;根据原始训练数据与聚合训练数据建立索引向量,索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;随机读取索引向量的取值,并根据取值从聚合训练数据中获取对应的训练数据;利用获取到的训练数据进行丰吴型训练。请参阅图1,图1是本专利技术第一实施例提供的训练数据的模型训练方法的流程示意图。所述方法包括:在步骤SlOl中,获取原始训练数据。在步骤S102中,对原始训练数据进行聚合,得到聚合训练数据。其中,步骤SlOl与步骤S102可具体为:本专利技术实施例中,原始训练数据可具体为一些历史数据,存储在在线存储服务器中,由于原始训练数据重复性高,此处采用数据聚合的方式,将原始训练数据进行聚合,得到聚合训练数据;其中,数据聚合是指将相同内容的多份数据聚合,只保留一份数据副本的数据处理方法。也就是说,将原始训练数据中重复的训练数据做聚合,只保留一份训练数据的副本,并将这些保留的训练数据的副本收集并确定为聚合训练数据,经过数据聚合可以有效的减少数据存储空间。比如,原始训练数据中有M条训练数据,将M条训练数据中重复的训练数据做聚合,只保留一份训本文档来自技高网...
一种训练数据的模型训练方法及装置

【技术保护点】
一种训练数据的模型训练方法,其特征在于,包括:获取原始训练数据;对所述原始训练数据进行聚合,得到聚合训练数据;根据所述原始训练数据与所述聚合训练数据建立索引向量,所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置;随机读取索引向量的取值,并根据所述取值从所述聚合训练数据中获取对应的训练数据;利用获取到的训练数据进行模型训练。

【技术特征摘要】

【专利技术属性】
技术研发人员:李超
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1