一种训练模型信息输出方法及装置制造方法及图纸

技术编号：16233199 阅读：30 留言：0更新日期：2017-09-19 14:43

本申请公开了一种训练模型信息输出方法及装置。一种训练模型信息输出方法包括：对训练样本数据进行预处理，得到预处理结果，并且对所述预处理的逻辑进行记录；利用所述预处理结果作为模型输入数据，通过训练处理得到训练模型；将所述训练模型的特征信息以及所述预处理的逻辑写入模型文件进行输出。应用本申请方案，能够避免在模型部署阶段的人工重写数据预处理逻辑，有效降低了模型的部署难度和成本。

Training model information output method and device

The present invention discloses a training model information output method and device. Including a training model of information output method: training sample data pretreatment, preprocessing results, and record on the pretreatment of logic; using the pretreatment results as the model input data obtained by training the training model; the characteristic information of the training model and the pretreatment the logical write file output model. Using this application scheme, the data rewriting logic can be avoided in the model deployment stage, which can effectively reduce the difficulty and cost of the deployment of the model.

全部详细技术资料下载

【技术实现步骤摘要】
一种训练模型信息输出方法及装置
本申请涉及数据分析
，尤其涉及一种训练模型信息输出方法及装置。
技术介绍
数据挖掘工程师在完成一项模型训练任务之后，如果模型评估的结果符合预期，则需要将该模型的相关信息以模型文件的形式输出，以便后续部署到系统中实际应用。为了令产出的模型文件能够具有较好的通用性，一般还会采用一定的标准格式对模型的相关信息进行输出，目前较为常见的模型描述标准包括PMML(PredictiveModelMarkupLanguage，预测模型标记语言)等。理想情况下，只要系统中安装了相应的标准格式解析器，则可以很方便地读取采用该标准格式输出的模型文件，并将对应的模型直接部署到系统上。然而，根据现有技术的方案，在输出模型文件时，仅会记录该模型本身的特征信息，例如对于一个训练后得到的模型y＝ax2+bx+c，其中x对应输入数据，y对应输出数据，a、b、c分别为训练得出的参数，则在模型文件中需要记录的信息包括公式ax2+bx+c以及a、b、c的具体取值，即“输入”→“输出”的对应关系信息。但是在实际训练模型的过程中，工程师可能需要在给定的训练样本数据的基础上增加一些特殊处理，例如缺失值填充、离散化等等。这种情况下，训练样本数据并不等同于模型的输入数据，换言之，在后续将模型部署到系统时，获取到的实际数据也不能直接输入模型进行计算。进而，在模型部署阶段，除了读取模型文件中的信息之外，还需要开发人员在系统中手动写入与该模型对应的缺失值填充、离散化等处理逻辑，以配合模型使用。可见，在这种情况下，模型文件的通用性已经难以体现，进而导致了模型部署难度的提升，特...
一种训练模型信息输出方法及装置

【技术保护点】
一种训练模型信息输出方法，其特征在于，该方法包括：根据模型训练需求，对训练样本数据进行预处理，得到预处理结果，并且对所述预处理的逻辑进行记录；利用所述预处理结果作为模型输入数据，通过训练处理得到训练模型；将所述训练模型的特征信息以及所述预处理的逻辑写入模型文件进行输出。

【技术特征摘要】
1.一种训练模型信息输出方法，其特征在于，该方法包括：根据模型训练需求，对训练样本数据进行预处理，得到预处理结果，并且对所述预处理的逻辑进行记录；利用所述预处理结果作为模型输入数据，通过训练处理得到训练模型；将所述训练模型的特征信息以及所述预处理的逻辑写入模型文件进行输出。2.根据权利要求1所述的方法，其特征在于，所述对训练样本数据进行预处理，包括以下子步骤中的一个或多个：缺失值处理、特征离散化处理、特征组合处理、特征选择处理。3.根据权利要求2所述的方法，其特征在于，在所述预处理包括多个子步骤的情况下，所述对预处理的逻辑进行记录，包括：分别记录各个子步骤的处理逻辑，并且记录各个子步骤的执行顺序。4.根据权利要求1所述的方法，其特征在于，所述模型文件采用预测模型标记语言PMML格式进行输出。5.根据权利要求5所述的方法，其特征在于，在所述模型文件采用PMML格式进行输出的情况下，所述将处理的逻辑写入模型文件，包括：将所述预处理的逻辑写入PMML格式文件的本地转换区段LocalTransformations中。6.一种训练模型信息输出装置，其特征在于，该装置...

【专利技术属性】
技术研发人员：毛仁歆，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人