【技术实现步骤摘要】
一种用户互动内容管理方法、装置和存储介质
[0001]本专利技术涉及自然语言处理
,具体涉及一种用户互动内容管理方法、装置和存储介质。
技术介绍
[0002]随着互联网的快速发展,各种内容生产和分发平台得到了极大的发展,内容生态体系持续繁荣。在用户发表内容的门槛降低、产量持续攀升的背景下,用户互动产生的内容如评论等的质量参差不齐,不仅影响内容生产和分发平台的生态,也会破坏网络环境。
[0003]目前,基于机器学习处理用户产生的低质量的内容的主要方法,是人工搜集相关有高危风险的关键词,以人工标注的大量低质量数据为样本,对文本分类模型进行训练,使得文本分类模型可以对用户评论等互动内容进行准确的分类,但是这种方案中,需要数量庞大的标注样本,才能使得文本分类模型对互动内容有良好的文本特征提取能力和分类能力,对人工标注的依赖很大,不利于提升分类效率。
技术实现思路
[0004]本专利技术实施例提供一种用户互动内容管理方法、装置和存储介质,可以减少低质量内容的识别效果,对人工精标注样本的依赖,节约人力资源,有利于提升低质量内容处理效率。
[0005]本专利技术实施例提供一种用户互动内容管理方法,包括:
[0006]根据语义表征模型的语义映射参数,将目标用户互动内容映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到所述目标用户互动内容的语义表征向量,其中,所述语义表征模型的训练样本包括无标注的第一用户互动内容样本;
[0007]根据语义分类模型对所述语义表征向量进行 ...
【技术保护点】
【技术特征摘要】
1.一种用户互动内容管理方法,其特征在于,包括:根据语义表征模型的语义映射参数,将目标用户互动内容映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到所述目标用户互动内容的语义表征向量,其中,所述语义表征模型的训练样本包括无标注的第一用户互动内容样本;根据语义分类模型对所述语义表征向量进行低质量内容分类分析,确定所述目标用户互动内容在所述语义分类模型的预设低质量内容类型下的分类结果,其中,所述语义分类模型基于所述语义表征模型对第二用户互动内容样本提取的语义表征向量训练得到,所述第二用户互动内容样本具有低质量内容分类标签;根据所述目标用户互动内容的所述分类结果,确定所述目标用户互动内容的实际低质量内容类型;从预先设置的互动内容处理策略中,选择所述实际低质量内容类型对应的目标互动内容处理策略;基于所述目标互动内容处理策略,对所述目标用户互动内容进行处理。2.根据权利要求1所述的方法,其特征在于,所述语义表征模型包括至少两个顺序连接的特征提取层,所述语义映射参数包括至少两个语义映射子参数,每一个语义映射子参数来自一个特征提取层,不同的特征提取层用于提取所述目标用户互动内容不同维度的语义特征向量;所述根据语义表征模型的语义映射参数,将目标用户互动内容映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到所述目标用户互动内容的语义表征向量,包括:根据各所述特征提取层的语义映射子参数,以及所述特征提取层的连接关系,将所述目标用户互动内容映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到各所述特征提取层提取的语义特征向量;对所述特征提取层中至少一层特征提取层提取的语义特征向量进行处理,得到所述目标用户互动内容的语义表征向量,其中,所述至少一层特征提取层包括在所述连接关系上位于最后一层的特征提取层。3.根据权利要求1所述的方法,其特征在于,所述根据语义表征模型的语义映射参数,将目标用户互动内容映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到所述目标用户互动内容的语义表征向量前,还包括:对待训练的语义表征模型,基于所述第一用户互动内容样本进行训练,得到训练后的语义表征模型,所述第一用户互动内容样本不具有低质量内容分类标签,所述待训练的语义表征模型为基于所述第一用户互动内容样本的同语种语料预训练后的模型;根据所述语义表征模型的语义映射参数,将所述第二用户互动内容样本映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到所述第二用户互动内容样本的第二语义表征向量;通过待训练的语义分类模型对所述第二语义表征向量进行低质量内容分类分析,确定所述第二用户互动内容样本在所述待训练的语义分类模型的预设低质量内容类型下的预测分类结果;根据所述第二用户互动内容样本的低质量内容分类标签和所述预测分类结果,对所述
语义分类模型的模型参数进行调整,得到训练后的语义分类模型。4.根据权利要求3所述的方法,其特征在于,所述对待训练的语义表征模型,基于所述第一用户互动内容样本进行训练,得到训练后的语义表征模型,包括:对所述第一用户互动内容样本进行分词处理,得到所述第一用户互动内容样本的分词;按照预设的分词替换策略中的至少两种分词替换方式,对所述分词进行替换,得到替换后第一用户互动内容样本,所述至少两种分词替换方式中包括目标替换方式;将所述第一用户互动内容样本中按照所述目标替换方式被替换的分词,作为待预测分词;通过待训练的语义表征模型,基于所述替换后第一用户互动内容样本,预测所述待预测分词,得到所述待训练的语义表征模型输出的预测词;根据所述预测词和所述待预测分词,确定所述待训练的语义表征模型的损失;根据所述损失,调整所述待训练的语义表征模型的模型参数,得到训练后的语义表征模型。5.根据权利要求4所述的方法,其特征在于,所述待训练的语义表征模型包括预测层和语义特征提取模块,所述语义特征提取模块包括语义映射参数;所述通过待训练的语义表征模型,基于所述替换后第一用户互动内容样本,预测所述待预测分词,得到所述待训练的语义表征模型输出的预测词,包括:通过所述语义特征提取模块的语义映射参数,将所述替换后第一用户互动内容样本映射到用户互动内容类型的文本的语义向量空间中,基于映射结果得到所述替换后第一用户互动内容样本的第一语义表征向量;通过所述预测层,基于所述第一...
【专利技术属性】
技术研发人员:刘刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。