【技术实现步骤摘要】
多标记业务处理的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及对业务模型进行数据预处理以重构特征空间、使用重构特征构建样本训练业务模型,以及通过所训练的多个业务模型联合确定业务数据对应的目标类别的方法及装置。
技术介绍
在机器学习领域,多标记业务是广泛涉及的业务。例如在零售,图像,文本翻译,医疗保健,科学等等场景下,都可能涉及多标记问题。在多标记场景中,一条业务数据可能对应多个标记(也可以称之为类别),例如客服场景中,用户提出的非标准化问题,对应多个可能的标准问题,可能的多个标准问题可以作为选项反馈给用户,有助于智能客服与用户的有效沟通。这里,用户提出的非标准化问题作为一条业务数据,可能对应的多个标准问题可以作为对应的多个标记(类别),就是一个多标记业务场景。常规技术中,多标记业务往往可以被转化成多个二分类问题,或者简单的进行排序以阈值截断的方式确定目标类别。然而,这种方式没有充分考虑标记之间的相关性信息。因此,需要一种方案,能够更深层次地利用样本特征信息,来进行更有效的多标记业务。
技术实现思路
本说明书一个或多个实施例描述的针对业务模型进行数据预处理的方法及装置,以及训练各个业务模型、通过所训练的多个业务模型进行多标记业务处理的方法和装置,可以用于解决
技术介绍
部分提到的一个或多个问题。根据第一方面,提供了一种针对业务模型进行数据预处理的方法,所述业务模型用于在进行多标记业务处理过程中,针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类,所述多个类别包含至少 ...
【技术保护点】
1.一种针对业务模型进行数据预处理的方法,所述业务模型用于在多标记业务处理过程中,针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类,所述多个类别包含至少三个类别,初始样本集中包括第一数量的初始正样本和第二数量的初始负样本,其中,所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征,以及所述多个类别中的至少一个类别标签,所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本,所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本;/n所述方法包括:/n从所述第一数量的初始正样本或所述第二数量的初始负样本中获取第一初始样本;/n针对所述初始样本集中的各个初始样本,分别确定各个初始样本与所述第一初始样本之间的各个相对距离;/n根据各个相对距离,检测所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性;/n基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征,所述基准特征用于将业务数据映射到所述重构的特征空间中,从而进行业务分类处理。/n
【技术特征摘要】
1.一种针对业务模型进行数据预处理的方法,所述业务模型用于在多标记业务处理过程中,针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类,所述多个类别包含至少三个类别,初始样本集中包括第一数量的初始正样本和第二数量的初始负样本,其中,所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征,以及所述多个类别中的至少一个类别标签,所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本,所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本;
所述方法包括:
从所述第一数量的初始正样本或所述第二数量的初始负样本中获取第一初始样本;
针对所述初始样本集中的各个初始样本,分别确定各个初始样本与所述第一初始样本之间的各个相对距离;
根据各个相对距离,检测所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性;
基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征,所述基准特征用于将业务数据映射到所述重构的特征空间中,从而进行业务分类处理。
2.根据权利要求1所述的方法,其中,所述单个初始样本与所述第一初始样本之间的相对距离为,所述多个初始特征维度下的欧氏距离。
3.根据权利要求1所述的方法,其中,所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性通过第一区分指标进行衡量,所述第一区分指标用于量化描述所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本的区分程度。
4.根据权利要求3所述的方法,其中,所述第一区分指标为,第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值,其中:所述类间距离为,所述第一数量的初始正样本相对于所述第一初始样本各个相对距离的平均值,与所述第二数量的初始负样本相对于所述第一初始样本的各个相对距离的平均值之差;
所述类内距离为,所述第一数量的初始正样本的正类内距离和所述第二数量的初始负样本的负类内距离的加权和,所述正类内距离为所述第一数量的初始正样本两两之间的相对距离的平均值,所述负类内距离为所述第二数量的初始正样本两两之间的相对距离的平均值。
5.根据权利要求3所述的方法,其中,所述第一区分指标为,所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度,所述离散度通过以下方式之一确定:极差、方差、标准差、平均差。
6.根据权利要求3所述的方法,其中,所述第一区分指标为,以下两项的加权和:
第一项为第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值;
第二项为所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度。
7.根据权利要求3-6任一所述的方法,其中,所述基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括:
在所述检测结果包括所述第一区分指标大于预设阈值,所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本具有区分性的情况下,确定将所述第一初始样本作为针对所述业务模型重构的特征空间中的第一基准特征。
8.根据权利要求3-6任一所述的方法,其中,所述第一数量的初始正样本与所述第二数量的初始负样本中的各个初始样本分别对应各个区分指标;所述基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括:
按照各个区分指标由大到小的顺序,从所述第一数量的初始正样本与所述第二数量的初始负样本中选择预定数量或预定比例的初始样本作为针对所述业务模型重构的特征空间中的基准特征;
如果所述第一初始样本属于所选择的预定数量或预定比例的初始样本,则将所述第一初始样本作为针对所述业务模型重构的特征空间中的第一基准特征。
9.根据权利要求8所述的方法,其中,在按照各个区分指标由大到小的顺序,从所述第一数量的初始正样本与所述第二数量的初始负样本中选择预定比例的候选特征的情况下,所述方法进一步包括:
确定第三数量为第一数量和第二数量中的较小值与所述预定比例的乘积的整数部分;
分别选择第三数量的初始正样本和第三数量的初始负样本,作为针对所述业务模型重构的特征空间中的基准特征。
10.根据权利要求1所述的方法,其中,所述多标记业务包括对字符、图像、音频中至少一项进行处理的业务。
11.一种训练业务模型的方法,所述业务模型用于在多标记业务处理过程中,针对业务数据在预定的多个类别中的第一类别和第二类别上进行分类,初始样本集中包括第一数量的初始正样本和第二数量的初始负样本,其中,所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征,以及所述多个类别中的至少一个类别标签,所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本,所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本;
所述方法包括:
针对单个初始正样本,基于所述单个初始正样本的多个初始特征,确定所述单个初始正样本在针对所述业务模型重构的特征空间中的各个基准特征上的各个特征值,并与所述第一类别标签一起形成正样本,其中,各个基准特征按照权利要求1所述的针对业务模型进行数据预处理的方法确定;
针对单个初始负样本,基于所述单个初始负样本的多个初始特征,确定所述单个初始负样本在各个基准特征上的各个特征值,并与所述第二属性类别标签一起形成负样本;
利用所述第一数量的初始正样本分别对应的各个正样本和所述第二数量的初始负样本分别对应的各个负样本训练选定的模型,得到针对所述第一类别和所述第二类别的业务模型。
12.根据权利要求11所述的方法,其中,所述基准特征包括第二基准特征,所述第二基准特征对应第二初始样本,单个初始正样本/单个初始负样本在所述第二基准特征上的特征值为,单个初始正样本/单个初始负样本与所述第二初始样本在所述多个初始特征构成的特征空间的欧式距离。
13.一种针对业务数据进行多标记业务处理的方法,,所述方法包括:
获取待处理的业务数据;
从所述待处理的业务数据中提取预定的多个初始特征,所述多个初始特征为对应于预定的多个类别的特征;
利用预先训练的多个业务模型,分别基于所提取的各个初始特征为所述待处理的业务数据确定各个分类类别,其中,各个业务模型分别按照权利要求11的训练业务模型的方法进行训练,并分别用于针对业务数据在所述多个类别中的两两类别上进行二分类;
根据各个业务模型分别确定的各个分类类别,为所述待处理的业务数据在所述多...
【专利技术属性】
技术研发人员:方军鹏,唐才智,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。