一种训练数据的模型训练方法及装置制造方法及图纸

技术编号：12308457 阅读：144 留言：0更新日期：2015-11-11 17:33

本发明专利技术公开了一种训练数据的模型训练方法及装置，其中该方法包括:获取原始训练数据；对原始训练数据进行聚合，得到聚合训练数据；根据原始训练数据与聚合训练数据建立索引向量，索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置；随机读取索引向量的取值，并根据取值从聚合训练数据中获取对应的训练数据；利用获取到的训练数据进行模型训练。本发明专利技术实施例在训练数据聚合的前提下，通过随机读取索引向量取值，可以从聚合训练数据中获取对应的训练数据，保证了用于模型训练的训练数据的随机性，从而可以在节省内存的基础上改善模型训练效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算
，尤其涉及一种训练数据的模型训练方法及装置。
技术介绍
在线广告的点击率预估在广告投放过程中起着重要的作用，目前业界主要使用简单线性模型如逻辑回归(LR，Logistic Regress1n)等进行广告点击率建模，模型求解过程简洁且较为迅速，可以在一定程度上防止对数据的过度拟合等。虽然LR模型求解简单，但在大数据时代，仍需要更充分地挖掘LR的计算性能。随机梯度下降(SGD，StochasticGradient Descent)算法是常用于训练LR模型的优化算法，其在海量数据的场景下，能更快地达到收敛。在为广告点击率预估生成的训练数据中，往往容易存在大量的重复训练数据，而这些大量的重复数据在很大程度上浪费了存储空间。若将这些重复的训练数据做聚合，只保留一份训练数据的副本，则虽然节省了内存，但因经聚合后相同的数据聚积一处，破坏了数据的均匀分布，不满足数据原始的随机性。而SGD算法需要在保证随机性的训练数据集上才能得到较好的模型训练结果，在基于聚合后的训练数据集上进行训练，往往得到的模型效果不佳。
技术实现思路
本专利技术的目的在于提供一种训练数据的模型训练方法及装置，旨在改善模型训练效果。为解决上述技术问题，本专利技术实施例提供以下技术方案:—种训练数据的模型训练方法，其中包括:获取原始训练数据；对所述原始训练数据进行聚合，得到聚合训练数据；根据所述原始训练数据与所述聚合训练数据建立索引向量，所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置；随机读取索引向量的取值，并根据所述取值从所述聚合训练数据...
一种训练数据的模型训练方法及装置

【技术保护点】
一种训练数据的模型训练方法，其特征在于，包括：获取原始训练数据；对所述原始训练数据进行聚合，得到聚合训练数据；根据所述原始训练数据与所述聚合训练数据建立索引向量，所述索引向量取值的绝对值用于指示原始训练数据中训练数据在聚合训练数据中的位置；随机读取索引向量的取值，并根据所述取值从所述聚合训练数据中获取对应的训练数据；利用获取到的训练数据进行模型训练。

【技术特征摘要】

【专利技术属性】
技术研发人员：李超，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人