一种类别确定方法、装置及设备制造方法及图纸

技术编号:22418469 阅读:32 留言:0更新日期:2019-10-30 02:06
本申请提供一种类别确定方法、装置及设备,该方法包括:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。通过本申请的技术方案,能够有效确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述尽量归一到相同类别,达到减少类别数量的目的。

【技术实现步骤摘要】
一种类别确定方法、装置及设备
本申请涉及互联网
,尤其涉及一种类别确定方法、装置及设备。
技术介绍
数据归类是指:确定数据的类别,并获取属于同一类别的所有数据,基于该类别的所有数据进行处理。例如,在税务行业中,发票数据的商品名称是关键要素,可以根据商品名称确定发票数据的类别,得到该类别的所有发票数据,并利用该类别的所有发票数据进行宏观分析、进销异常、偷税漏税检测等处理。但是,应该如何确定数据的类别,目前,缺少有效的实现方式。例如,发票数据中的商品名称可以是用户手工录入的,并没有规范的命名方式,如“水泥”类别的发票数据中,商品名称可能包括:水泥208、水泥322、水泥(快干)、水泥PC325-纸袋50KG-红水河牌等,这样,如何将包括这些商品名称的发票数据归类到“水泥”类别,目前,还没有有效的实现方式。
技术实现思路
本申请提供一种类别确定方法,所述方法包括:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。本申请提供一种类别确定方法,所述方法包括:利用字符属性将数据中的商品名称分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述商品名称对应的类别;将所述数据归集到所述商品名称对应的类别。本申请提供一种类别确定装置,所述装置包括:分割模块,用于利用字符属性将数据的名称信息分割成至少一个字符组;选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述数据的类别。本申请提供一种类别确定装置,所述装置包括:分割模块,用于利用字符属性将数据中的商品名称分割成至少一个字符组;选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述商品名称对应的类别;归集模块,用于将所述数据归集到所述商品名称对应的类别。本申请提供一种类别确定设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。基于上述技术方案,本申请实施例中,可以利用字符属性将名称信息分割成至少一个字符组,并利用字符组的字符属性从至少一个字符组中选取目标字符组,然后根据目标字符组确定数据的类别。上述方式能够有效的确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述,尽量归一到相同类别,从而达到减少类别数量的目的。上述方式不需要使用分词器对名称信息进行分词处理,即使分词器的分词词典中没有名称信息,也可以识别类别。附图说明为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。图1是本申请一种实施方式中的类别确定方法的流程图;图2是本申请一种实施方式中的系统结构示意图;图3是本申请一种实施方式中的图结构的示意图;图4是本申请一种实施方式中的类别确定装置的结构图。具体实施方式在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本申请实施例中提出一种类别确定方法,该方法可以应用于类别确定设备,如PC(PersonalComputer,个人计算机)、笔记本电脑、移动终端、终端设备、智能手机、服务器、数据平台、分析平台等,对此设备类型不做限制。参见图1所示,为上述类别确定方法的流程示意图,该方法可以包括:步骤101,利用字符属性将数据的名称信息分割成至少一个字符组。其中,利用字符属性将数据的名称信息分割成至少一个字符组,可以包括:方式一、执行如下的至少一种:将该名称信息中具有相同字符属性的相邻字符分割到同一字符组;将该名称信息中具有不同字符属性的字符分割到不同字符组;将该名称信息中具有相同字符属性的不相邻字符分割到不同字符组。方式二、利用字符属性对该名称信息进行哈希编码,得到至少一个编码值;从该名称信息中确定与编码值对应的字符组,从而得到至少一个字符组。在方式二中,利用字符属性对该名称信息进行哈希编码,得到至少一个编码值,可以包括但不限于:确定该名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到至少一个编码值。进一步的,确定该名称信息中每个字符的字符属性对应的编码值,可以包括但不限于:通过字符的字符属性查询映射表,得到与所述字符属性对应的编码值;其中,所述映射表用于记录字符属性与编码值的对应关系。步骤102,利用字符组的字符属性从至少一个字符组中选取目标字符组。其中,利用字符组的字符属性从至少一个字符组中选取目标字符组,可以包括但不限于:从至少一个字符组中选取出具有特定字符属性的字符组,并将选取的字符组确定为目标字符组。而且,目标字符组可以为一个或者至少两个。步骤103,根据该目标字符组确定数据的类别。其中,根据该目标字符组确定数据的类别,可以包括但不限于:若目标字符组为一个,则将该目标字符组确定为数据的类别;或者,若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为数据的类别。在一个例子中,从至少两个目标字符组中选择一个目标字符组,可以包括但不限于:根据目标字符组的特征信息确定该目标字符组的分数值;然后,可以从上述至少两个目标字符组中选择分数值最高的目标字符组。其中,目标字符组的特征信息可以包括但不限于以下之一或者任意组合:目标字符组对应的总出现次数;使用目标字符组的企业总数量;目标字符组对应的目录数量。在根据目标字符组的特征信息确定该目标字符组的分数值时,分数值与总出现次数成正比,分数值与企业总数量成正比,分数值与目录数量成反比。在一个例子中,上述执行顺序只是为了方便描述给出的一个示例,在实际应用中,还可以改变步骤之间的执行顺序,对此执行顺序不做限制。而且,在其它实施例中,并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其它实施例中可能被分解为多个步骤进行描述;本说明书中所描述的多个步骤,在其它实施例也可能被合并为单个步骤进行描述。在一个例子中,本文档来自技高网...

【技术保护点】
1.一种类别确定方法,其特征在于,所述方法包括:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。

【技术特征摘要】
1.一种类别确定方法,其特征在于,所述方法包括:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。2.根据权利要求1所述的方法,其特征在于,所述利用字符属性将数据的名称信息分割成至少一个字符组,包括以下方式中的至少一种:将所述名称信息中具有相同字符属性的相邻字符分割到同一字符组;将所述名称信息中具有不同字符属性的字符分割到不同字符组;将所述名称信息中具有相同字符属性的不相邻字符分割到不同字符组。3.根据权利要求1所述的方法,其特征在于,所述利用字符属性将数据的名称信息分割成至少一个字符组,包括:利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值;从所述名称信息中确定与所述编码值对应的字符组。4.根据权利要求3所述的方法,其特征在于,所述利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值,包括:确定所述名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。5.根据权利要求4所述的方法,其特征在于,所述确定所述名称信息中每个字符的字符属性对应的编码值,包括:通过字符的字符属性查询映射表,得到与所述字符属性对应的编码值;其中,所述映射表用于记录字符属性与编码值的对应关系。6.根据权利要求1所述的方法,其特征在于,利用字符组的字符属性从所述至少一个字符组中选取目标字符组,包括:从所述至少一个字符组中选取出具有特定字符属性的字符组;将选取的字符组确定为所述目标字符组。7.根据权利要求1所述的方法,其特征在于,所述根据所述目标字符组确定所述数据的类别,包括:若目标字符组为一个,则将所述目标字符组确定为所述数据的类别;或,若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为所述数据的类别。8.根据权利要求7所述的方法,其特征在于,所述从至少两个目标字符组中选择一个目标字符组,包括:根据目标字符组的特征信息确定所述目标字符组的分数值;从至少两个目标字符组中选择分数值最高的目标字符组。9.根据权利要求8所述的方法,其特征在于,所述目标字符组的特征信息包括以下之一或者任意组合:所述目标字符组对应的总出现次数;使用所述目标字符组的企业总数量;所述目标字符组对应的目录数量。10.根据权利要求9所述的方法,其特征在于,所述根据目标字符组的特征信息确定所述目标字符组的分数值时,所述分数值与所述总出现次数成正比,所述分数值与所述企业总数量成正比,所述分数值与所述目录数量成反比。11.根据权利要求1所述的方法,其特征在于,所述根据所述目标字符组确定所述数据的类别之后,所述方法还包括:将所述目标字符组记录到分词词典中,所述分词词典用于进行分词处理。12.根据权利要求1所述的方法,其特征在于,所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符。13.一种类别确定方法,其特征在于,所述...

【专利技术属性】
技术研发人员:梁奇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1