【技术实现步骤摘要】
一种创建文本分类模型的方法、装置、介质及设备
[0001]本专利技术涉及文本分类
,尤其涉及一种创建文本分类模型的方法、装置、介质及设备。
技术介绍
[0002]在直播平台中,需要对平台弹幕文本进行实时识别分类,识别平台用户的语气状态,以能对用户进行准确的活动引导,辅助运行平台的运营策略。
[0003]但是实际在处理文本的过程中,由于中文词组、汉字的数量巨大,基于词表生产的文本向量维度通常会比较巨大,为了去除文本中的噪声、提高数据处理效率,通常需要对数据进行降维。
[0004]相关技术中使用的降维方法通常是保留文本向量中前N个权重较大的文本特征,放弃权重较小的文本特征。但是文本领域中,权重较小的文本特征往往包含了高频信息和细节信息,因此在利用传统降维后的文本数据进行文本分类模型的训练时,文本分类模型的精度并不能得到确保。
技术实现思路
[0005]针对现有技术存在的问题,本专利技术实施例提供了一种创建文本分类模型的方法、装置、介质及设备,用于解决现有技术中,在利用降维的文本数据进行创建文本分类模型时,由于降维后的文本数据丢失了一些高频文本信息,因此导致创建的文本分类模型的精度不能得到确保的技术问题。
[0006]本专利技术的第一方面,提供一种创建文本分类模型的方法,所述方法包括:
[0007]根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0008]将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0009]针对 ...
【技术保护点】
【技术特征摘要】
1.一种创建文本分类模型的方法,其特征在于,所述方法包括:根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;将所述文本样本集合中的各文本样本转换为对应的文本向量;针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;对所述目标文本向量进行训练,获得文本分类模型。2.如权利要求1所述的方法,其特征在于,所述根据直播间的弹幕信息确定文本样本集合,包括:对所述弹幕信息进行分词,获得多个词语;若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语气样本类别;若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。3.如权利要求1所述的方法,其特征在于,所述确定所述当前维文本特征与每个同类文本样本之间的第一距离,包括:基于公式确定第一距离中间变量dis(A,R,G
i
);基于公式确定所述当前维文本特征与每个同类文本样本之间的第一距离D1;其中,所述T[A]为样本T的第A维特征值,所述样本T为所述当前文本向量对应的当前文本样本;所述G
i
[A]为样本G
i
的第A维特征值,所述样本G
i
与当前文本样本属于同类样本类别,所述G
i
为所述同类样本类别中的第i个文本样本;所述A为所述当前文本向量的当前维特征;所述max(A)为所有维特征值中的最大特征值;所述min(A)为所有维特征值中的最小特征值;所述i为所述同类样本类别中文本样本的序号;所述S为所述同类样本类别中的文本样本的总数量;所述R为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
4.如权利要求1所述的方法,其特征在于,所述确定所述当前维文本特征与每个非同类文本样本之间的第二距离,包括:根据公式确定第二距离中间变量dis(A,R,M
j
(C));根据公式确定所述当前维文本特征与每个非同类文本样本之间的第二距离D2;其中,所述T[A]为样本T的第A维特征值,所述样本T为所述当前文本向量对应的当前文本样本;所述M
j
(C)[A]为样本M
j
(C)的第A维特征值,所述A为所述当前文本向量的当前维特征;所述M
j
(C)与所述当前文本样本属于非同类样本类别,所...
【专利技术属性】
技术研发人员:徐乐乐,
申请(专利权)人:武汉斗鱼鱼乐网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。