一种模型训练方法、数据处理方法、装置及电子设备制造方法及图纸

技术编号:28786358 阅读:26 留言:0更新日期:2021-06-09 11:21
本申请涉及一种模型训练方法、数据处理方法、装置及电子设备,属于计算机技术领域。该训练方法包括:获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联。通过对BERT模型进行改进,通过将每一句话的平均响应和最大响应考虑在内,使得训练出的词向量不仅含有语义信息,而且还将整个句子的情感极性表达考虑在内,从而提高了情感分类预测的准确性。从而提高了情感分类预测的准确性。从而提高了情感分类预测的准确性。

【技术实现步骤摘要】
一种模型训练方法、数据处理方法、装置及电子设备


[0001]本申请属于计算机
,具体涉及一种模型训练方法、数据处理方法、装置及电子设备。

技术介绍

[0002]随着互联网的发展以及电子商务的大众化,网上购物已变成一种广受欢迎的购物方式,电商网站上的购物评论也逐渐增多,这些评论信息表达的是消费者对所购商品的主观感受,对于消费者挑选符合心意的商品具有极大的参考价值,同时,也是商家改进营销策略的重要依据。随着电商平台评论信息的海量堆积,消费者越来越关注自己感兴趣的商品主题信息,例如商品的质量、包装、或者送货速度等。因此,从电商评论中获取商品主题的情感信息是一个热门课题。
[0003]目前主流的情感分析方法有三类:一类是基于情感词典的分析方法,这类方法主要依赖于情感词典,并通过人为设计的规则进行情感分类;第二类是传统的基于机器学习的分析方法,这类方法需要挖掘出词语的特征,再使用如支持向量机、朴素贝叶斯、随机森林等分类算法对文本进行情感倾向性的判断;最后一类则为基于深度学习的分析方法,即使用不同的神经网络模型,将文本隐射到向量空间得到词语的数值表示,再将向量输入到分类器中。
[0004]基于情感词典的分析方法并不能处理如今的海量文本语料,不仅耗时耗力,准确率也极低。而传统机器学习分析方法,对于文本本身的特征提取依赖严重,整个过程存在人为因素干扰,所以抗鲁棒性较差。而目前一般的深度神经网络是将文本中的句子看作一个个情感词或短语的集合,而不考虑每个词语之间互相组合的关系,训练出的词向量只含有语义信息而忽略了情感极性的表达,对于情感分析类任务,准确率并不高。

技术实现思路

[0005]鉴于此,本申请的目的在于提供一种模型训练方法、数据处理方法、装置及电子设备,以改善现有情感分析方法存在的分类不准确的问题。
[0006]本申请的实施例是这样实现的:
[0007]第一方面,本申请实施例提供了一种模型训练方法,包括:获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。本申请实例中,通过对BERT模型进行改进,使得BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_
size,embedding_dimension*2],通过将每一句话的平均响应和最大响应考虑在内,使得训练出的词向量不仅含有语义信息,而且还考虑了整个句子的情感极性表达,从而提高了预测的准确性。
[0008]结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:在每次利用所述训练集完成对BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。本申请实施例中,在对模型进行训练时,采取动态学习率和提前终止的方式进行训练,能在保证预测精度的前提下,加快模块的收敛速度。
[0009]结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:在每次利用所述测试集对当前迭代训练后BERT模型进行合格测试时,均会计算所述测试集相对于预设多个阈值中每一个阈值的F1分数;在迭代结束时,选取最大F1分数对应的阈值作为模型的最终预测阈值。本申请实施例中,采用动态阈值策略来选择最佳阈值,以提高模型的预测精度。
[0010]结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对BERT模型进行迭代训练。本申请实施例中,在对模型进行训练时,通过加入权重衰减(weight decay)机制以及dropout机制来减少模型过拟合的问题,以此提高模型的准确性。
[0011]结合第一方面实施例的一种可能的实施方式,获取数据样本集,包括:获取网页中与指定目标相关的多条评论文本数据;对获取到的文书数据进行去重,并对去重后的每一条文本数据进行标签标记,得到所述数据样本集,所述标签用于标记文本数据为正面评论文本或负面评论样本。本申请实施例中,通过对样本进行去重,使得模型能学习更多不同样本的特征,以此可以提高模型的泛化能力。
[0012]第二方面,本申请实施例还提供了一种数据处理方法,所述方法包括:获取网页中的评论数据;利用如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的模型训练方法训练好的情感分类模型对所述评论数据进行情感分类,得到分类结果。
[0013]第三方面,本申请实施例还提供了一种模型训练装置,包括:获取模块以及处理模块;获取模块,用于获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;处理模块,用于利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。
[0014]第四方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存
储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第二方面实施例提供的方法。
[0015]第五方面,本申请实施例还提供了一种BERT模型,包括:输入层、嵌入层;所述输入层的数据经过所述嵌入层后,沿着sequence length方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embeddin本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取数据样本集,并按照预设比例划分为训练集和测试集,其中,所述数据样本集包括:网页中与指定目标相关的多条正面评论文本和多条负面评论文本;利用所述训练集和所述测试集对BERT模型进行迭代训练,得到训练好的情感分类模型,其中,所述BERT模型的输入层经过嵌入层后,沿着句子序列长度方向分别做平均池化和最大池化,并将两者级联,数据维度由[batch_size,sequence_length,embedding_dimension]经过池化操作后,变为[batch_size,embedding_dimension*2]。2.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:在每次利用所述训练集完成对BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。3.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:在每次利用所述测试集对当前迭代训练后BERT模型进行合格测试时,均会计算所述测试集相对于预设多个阈值中每一个阈值的F1分数;在迭代结束时,选取最大F1分数对应的阈值作为模型的最终预测阈值。4.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对BERT模型进行迭代训练,包括:基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对BERT模型进行迭代训练。5.根据权利要求1所述的方法,其特征在于,获取数据样本集,包括:获取网页中与指定目标相关的多条评论文本数据;对获取到的文书数据进行去重,并对去重后的每一条文本数据进行标签标记,得到所述数据样本集,...

【专利技术属性】
技术研发人员:张发恩刘雨微
申请(专利权)人:创新奇智上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1