同时用于情感分类和回归的多任务主动学习方法和系统技术方案

技术编号：27446655 阅读：26 留言：0更新日期：2021-02-25 04:14

本发明专利技术公开了一种同时用于情感分类和回归的多任务主动学习方法和系统，属于情感计算领域。本发明专利技术结合主动学习分类方法在EC任务上，和主动学习回归方法在ER任务上对于无标签样本的价值度量，得到主动学习在多个任务上对于无标签样本总的价值度量，同时挖掘类别型情感和维度型情感的信息，从而只需选择尽可能少的样本进行标注，即可同时训练得到具有良好性能的EC模型和单个或多个维度上的ER模型，实验验证，在相同的询问次数下，本发明专利技术提出的方法比起单任务的主动学习方法训练得到的EC模型和多个维度的ER模型具有更好的性能，极大地减少了标注代价。少了标注代价。少了标注代价。

全部详细技术资料下载

【技术实现步骤摘要】
同时用于情感分类和回归的多任务主动学习方法和系统

[0001]本专利技术属于情感计算领域，更具体地，涉及同时用于情感分类和回归的多任务主动学习方法和系统。

技术介绍

[0002]情感计算使机器能够识别、理解、表达和适应人类的情感，是人机交互的核心与基础。情感识别是情感计算的重要步骤，通过对收集的生理信号或其它非生理信号进行分析处理从而得到人的情感状态。情感有两种表示方式：1)类别型情感(离散)，能够简单直观地将情感表示为几种相互独立的情感类别，比如Ekman等人[1]提出的六种基本情感(高兴、悲伤、惊讶、恐惧、生气、厌恶)；2)维度型情感(连续)，认为情感有基本的维度，每一个维度是对情感某一方面的度量，比如Mehrabian[2]提出的情感三个维度的valence-arousal-dominance三维空间表示。类别型情感在情感计算中通常是一个分类问题，而维度型情感通常作为回归问题。无论是情感分类(emotion classification，EC)模型还是情感回归(emotion regression，ER)模型的训练都需要大量的有标签数据。
[0003]在实际中，获取大量的无标签情感数据是非常容易的，但是标注它们非常困难。一方面，情感本身是非常主观的，可能具有一定的不确定性，而且有时候可能非常细微难以捕捉，所以通常需要多个标注者对每一个样本进行标注从而得到一个比较真实的标签。另一方面，有些情感样本很长，标注者需要一直保持注意力对其进行观察得到标注结果。所以，对情感的标注相当费时费力，需要付出很高的代价。主...

【技术保护点】

【技术特征摘要】
1.一种同时用于情感分类和回归的多任务主动学习方法，其特征在于，包括：S1.从无标签样本池中选择数量为M0个无标签样本，标注其类别型和单个或多个维度的维度型标签，作为初始训练集，并从无标签样本池中去掉；S2.在初始训练集上训练得到初始EC模型和单个或多个维度的初始ER模型；S3.在当前EC模型上，使用任意一种主动学习分类方法得到当前剩余无标签样本在EC任务上的价值排序向量r1，价值越大排序值越大；S4.在当前各个维度的ER模型上，使用任意一种主动学习回归方法得到当前剩余无标签样本的价值排序向量；计算所有维度上的价值排序向量的加权和，得到当前剩余无标签样本在ER任务上的价值排序向量r2；S5.计算EC任务上的价值排序向量r1和ER任务上的价值排序向量r2的加权和，得到EC任务和ER任务上的总价值排序向量r；S6.选择总价值排序向量r中最大的值对应的无标签样本，并标注其类别型和单个或多个维度的维度型标签，将其加入当前训练集中，并从当前剩余无标签样本中去掉；S7.在当前训练集上训练当前EC模型和当前单个或多个维度的ER模型；S8.重复步骤S3-S7，直到当前训练集达到最大的样本数量或模型性能达到预设值，得到训练好的EC模型和单个或多个维度的ER模型。2.根据权利要求1所述的一种同时用于情感分类和回归的多任务主动学习方法，其特征在于，步骤S1具体为，从无标签样本池中随机选择或者采用无监督主动学习方法选择数量为M0个无标签样本。3.根据权利要求2所述的一种同时用于情感分类和回归的多任务主动学习方法，其特征在于，采用无监督主动学习方法选择数量为M0个无标签样本，具体包括：选择无标签样本池中最接近聚类中心的样本作为第一个样本进行标注加入训练集，并从无标签样本池中去除；依次选择接下来的M
0-1个样本：计算当前剩余无标签样本x
n
到已选的每一个样本x
m
的距离：其中，m＝1，2，...，m0,n＝m0+1，...，N，m0为已选择并加入到训练集中的样本数量，N为无标签样本池中样本总数；得到当前剩余无...

【专利技术属性】
技术研发人员：伍冬睿，蒋雪，孟璐斌，黄剑，曾志刚，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人