特征确定方法、装置、设备、介质及产品制造方法及图纸

技术编号:37975456 阅读:11 留言:0更新日期:2023-06-30 09:50
本申请实施例提供一种特征确定方法、装置、设备、介质及产品,包括:获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。本申请实施例,提高了现有技术中特征确定的准确性。特征确定的准确性。特征确定的准确性。

【技术实现步骤摘要】
特征确定方法、装置、设备、介质及产品


[0001]本申请属于人工智能
,尤其涉及一种特征确定方法、装置、设备、介质及产品。

技术介绍

[0002]特征选择也称特征子集选择,是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中决策特征的数据预处理步骤。
[0003]在文本分类中,特征选择的目的是针对特征空间的高维性选出最能反映文本类别的特征。因此,如何从特征空间的高维性中确定更为准确的特征,从而可以准确地进行文本分类是一个亟待解决的技术问题,然而,现有技术中的特征确定的准确性较低。

技术实现思路

[0004]本申请实施例提供一种特征确定方法、装置、设备、介质及产品,提高了现有技术中特征确定的准确性。
[0005]第一方面,本申请实施例提供一种特征确定方法,方法包括:
[0006]获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;
[0007]基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;
[0008]在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。
[0009]在第一方面的一种可选的实施方式中,基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,包括:
[0010]基于输入特征、决策特征和多个第二文本样本,计算第一邻域互信息,第一邻域互信息表征输入特征与决策特征之间的相关性;
[0011]基于输入特征、第二特征和多个第二文本样本,计算第二邻域互信息,第二邻域互信息表征输入特征与第二特征之间的冗余性,第二特征为多个第一特征中的任一个;
[0012]基于输入特征、决策特征、第二特征和多个第二文本样本,计算邻域条件互信息,邻域条件互信息表征输入特征与第二特征之间的交互性。
[0013]在第一方面的一种可选的实施方式中,第一预设条件包括目标数值处于第一预设范围内,其中,目标数值等于目标差值与邻域条件互信息之和,目标差值为第一邻域互信息和第二邻域互信息之差。
[0014]在第一方面的一种可选的实施方式中,方法还包括:
[0015]在特征关联信息满足第二预设条件的情况下,删除当前时刻的输入特征,第二预设条件为目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息。
[0016]在第一方面的一种可选的实施方式中,方法还包括:
[0017]在特征关联关系满足第三预设条件的情况下,从预设特征集中删除第二特征,第三预设条件为目标数值处于第二预设范围内,且第一邻域互信息小于邻域条件互信息。
[0018]第二方面,本申请实施例提供了一种特征确定装置,该装置包括:
[0019]获取模块,用于获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;
[0020]确定模块,用于基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;
[0021]确定模块,用于在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。
[0022]在第二方面的一种可选的实施方式中,装置包括:
[0023]计算模块,用于基于输入特征、决策特征和多个第二文本样本,计算第一邻域互信息,第一邻域互信息表征输入特征与决策特征之间的相关性;
[0024]计算模块,用于基于输入特征、第二特征和多个第二文本样本,计算第二邻域互信息,第二邻域互信息表征输入特征与第二特征之间的冗余性,第二特征为多个第一特征中的任一个;
[0025]计算模块,还用于基于输入特征、决策特征、第二特征和多个第二文本样本,计算邻域条件互信息,邻域条件互信息表征输入特征与第二特征之间的交互性。
[0026]第三方面,提供一种电子设备,包括:存储器,用于存储计算机程序指令;处理器,用于读取并运行存储器中存储的计算机程序指令,以执行第一方面中任一可选的实施方式提供的特征确定方法。
[0027]第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面中的任一可选的实施方式提供的特征确定方法。
[0028]第五方面,提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行实现第一方面中的任一可选的实施方式提供的特征确定方法。
[0029]在本申请实施例中,通过获取当前时刻的输入特征以及与该输入特征对应的决策特征,进而可以基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据确定关联信息,进而可以在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。由于特征关联信息用于反映特征间的相关性、冗余性和交互性,进而可以更好地确定目标特征,提高了特征确定的准确性。
附图说明
[0030]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本申请实施例提供的一种特征确定方法的流程示意图;
[0032]图2是本申请实施例提供的一种特征确定装置的结构示意图;
[0033]图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0035]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
...

【技术保护点】

【技术特征摘要】
1.一种特征确定方法,其特征在于,所述方法包括:获取当前时刻的输入特征以及与所述输入特征对应的决策特征,所述输入特征是基于第一文本样本中的至少一个维度数据确定的;基于所述输入特征、所述决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,所述特征关联信息用于反映特征间的相关性、冗余性和交互性,所述预设文本样本集包括多个第二文本样本,所述第二文本样本包括第一文本样本,所述预设特征集包括多个第一特征;在所述特征关联信息满足第一预设条件的情况下,确定所述输入特征为目标特征。2.根据权利要求1所述的方法,其特征在于,所述基于所述输入特征、所述决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,包括:基于所述输入特征、所述决策特征和所述多个第二文本样本,计算第一邻域互信息,所述第一邻域互信息表征所述输入特征与所述决策特征特征之间的相关性;基于所述输入特征、所述第二特征和多个第二文本样本,计算第二邻域互信息,所述第二邻域互信息表征所述输入特征与第二特征之间的冗余性,所述第二特征为所述多个第一特征中的任一个;基于所述输入特征、所述决策特征、所述第二特征和多个第二文本样本,计算邻域条件互信息,所述邻域条件互信息表征所述输入特征与所述第二特征之间的交互性。3.根据权利要求2所述的方法,其特征在于,第一预设条件包括目标数值处于第一预设范围内,其中,所述目标数值等于目标差值与邻域条件互信息之和,所述目标差值为所述第一邻域互信息和所述第二邻域互信息之差。4.根据权利要求3所述的方法,特征在于,所述方法还包括:在所述特征关联信息满足第二预设条件的情况下,删除当前时刻的输入特征,所述第二预设条件为目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在所述特征关联关系满足第三预设条件的情况下,从预设特征集中删除第二特征,所述第三预设条件为目标数值处于第二预设范围内,且第一邻域互信息小于邻域条...

【专利技术属性】
技术研发人员:张毅赵康辉黄彩云周佳白国涛孙昊程小磊肖阳
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1