货源信息分类方法、装置、电子设备、存储介质制造方法及图纸

技术编号:27478892 阅读:16 留言:0更新日期:2021-03-02 17:48
本发明专利技术提供一种货源信息分类方法、装置、电子设备、存储介质,方法包括:基于规则匹配判断待分类货源信息是否为准有效信息;若是,则提取所述待分类货源信息的特征获得特征向量;将所述特征向量分别输入至少两个基学习器;将所述至少两个基学习器的输出输入至一次学习器;以及根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。本发明专利技术结合规则匹配以及分类模型算法,从而实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。抱怨信息等与货源无关的信息发布在平台上。抱怨信息等与货源无关的信息发布在平台上。

【技术实现步骤摘要】
货源信息分类方法、装置、电子设备、存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种货源信息分类方法、装置、电子设备、存储介质。

技术介绍

[0002]随着互联网以及信息技术的发展,线上货运平台在货主和司机之间已经越来越普及。货主通过货运平台发布货源信息,并由司机进行浏览和接单,以实现货运前的对接过程。
[0003]在货运平台中,货源信息由货主输入,并发布。经常有一些广告或者辱骂抱怨,或者含有违禁关键词的违规信息,平台需要对这些发布的货源信息进行管控,以免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。然而,人工识别的话耗时耗力,所以,通常会采用算法来解决这个问题。
[0004]然而,单纯利用添加特殊规则识别会导致规则冗长,为了实现每一规则的匹配,还可能存在匹配时间过长的情况。同时,需要识别的情况过多,难以总结全面,由此,规则匹配的泛化能力和容错能力不够强,也没有自学习和自适应能力。此外,若单纯用单一类型的神经网络来分类的话,因为网络模型的逼近和泛化能力与我们训练样本的典型性相关度比较密切,而目前难以保证收集的训练数据有典型性,并且某些神经网络模型计算成本较高,在工业上难以起到学术界一样卓越的效果。
[0005]由此,如何结合规则匹配以及分类模型算法,从而实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上,是本领域技术人员亟待解决的技术问题。

技术实现思路

[0006]本专利技术为了克服上述相关技术存在的缺陷,提供一种货源信息分类方法、装置、电子设备、存储介质,进而至少在一定程度上结合规则匹配以及分类模型算法,从而实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
[0007]根据本专利技术的一个方面,提供一种货源信息分类方法,包括:
[0008]基于规则匹配判断待分类货源信息是否为准有效信息;
[0009]若是,则提取所述待分类货源信息的特征获得特征向量;
[0010]将所述特征向量分别输入至少两个基学习器;
[0011]将所述至少两个基学习器的输出输入至一次学习器;以及
[0012]根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。
[0013]在本专利技术的一些实施例中,所述基于规则匹配判断待分类货源信息是否为准有效
信息包括:
[0014]判断所述待分类货源信息中是否存在与关键词集中字符一致和/或拼音一致的字段,所述关键词集中包括多个预设定的禁用词;
[0015]若是,则判断所述待分类货源信息为无效信息;
[0016]若否,则判断所述待分类货源信息为准有效信息。
[0017]在本专利技术的一些实施例中,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:
[0018]判断所述待分类货源信息中是命中无效信息规则集合中的规则,所述无效信息规则集合中包括多个预设定的无效信息规则;
[0019]若是,则判断所述待分类货源信息为无效信息;
[0020]若否,则判断所述待分类货源信息为准有效信息。
[0021]在本专利技术的一些实施例中,所述提取所述待分类货源信息的特征获得特征向量包括:
[0022]提取所述待分类货源信息的字段特征;
[0023]提取所述待分类货源信息的拼音特征;
[0024]提取所述待分类货源信息的字段特征;
[0025]拼接所述待分类货源信息的字段特征、拼音特征以及字段特征,以形成所述待分类货源信息的特征向量。
[0026]在本专利技术的一些实施例中,所述至少两个基学习器包括一个快速文本分类器,所述快速文本分类器包括依次相连的第一输入层、隐藏层以及一输出层,所述快速文本分类器的第一输入层包括由所述特征向量划分获得的N个字节片段序列,N为大于1的整数,所述隐藏层通过分层Softmax以获得所述第一输出层的输出。
[0027]在本专利技术的一些实施例中,所述至少两个基学习器包括一个文本卷积神经网络分类器,所述文本卷积神经网络分类器包括依次相连的第二输入层、卷积层、池化层以及第二输出层。
[0028]在本专利技术的一些实施例中,所述根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息还包括:
[0029]根据所述次学习器的输出,判断所述待分类货源信息是否为广告信息和/或抱怨信息。
[0030]根据本专利技术的又一方面,还提供一种货源信息分类装置,包括:
[0031]规则匹配模块,配置成基于规则匹配判断待分类货源信息是否为准有效信息;
[0032]提取模块,配置成当所述规则匹配模块判断为是时,提取所述待分类货源信息的特征获得特征向量;
[0033]第一输入模块,配置成将所述特征向量分别输入至少两个基学习器;
[0034]第二输入模块,配置成将所述至少两个基学习器的输出输入至一次学习器;以及
[0035]判断模块,配置成根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。
[0036]根据本专利技术的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
[0037]根据本专利技术的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
[0038]相比现有技术,本专利技术的优势在于:
[0039]本专利技术结合规则匹配以及分类模型算法,从而在分类模型算法之前利用规则匹配以将能够识别为非有效信息的货源信息进行过滤,再利用过滤后的货源信息通过多分类器融合的分类模型算法进行分类识别,一方面,无需规则匹配适应所有情况,提高规则匹配的效率,同时,减少输入分类模型算法的数据量,提高分类模型算法的分类效率;另一方面,通过规则匹配将确定的非有效信息进行筛选,再通过分类模型算法进行分类,提高分类准确率;再一方面,通过多分类器融合的分类模型算法进行分类,结合各模型的优势,进一步提高分类准确率。由此,实现货主发布的货源信息的分类,以提高分类算法的泛化能力、容错能力以及自学习和自适应能力,以实现非货源信息的识别,从而能够避免广告信息、敏感信息、抱怨信息等与货源无关的信息发布在平台上。
附图说明
[0040]通过参照附图详细描述其示例实施方式,本专利技术的上述和其它特征及优点将变得更加明显。
[0041]图1示出了根据本专利技术实施例的货源信息分类方法的流程图。
[0042]图2示出了根据本专利技术一具体实施例的基于规则匹配判断待分类货源信息是否为准有效信息的流程图。
[0043]图3示出了根据本专利技术另一具体实施例的基于规则匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种货源信息分类方法,其特征在于,包括:基于规则匹配判断待分类货源信息是否为准有效信息;若是,则提取所述待分类货源信息的特征获得特征向量;将所述特征向量分别输入至少两个基学习器;将所述至少两个基学习器的输出输入至一次学习器;以及根据所述次学习器的输出,判断所述待分类货源信息是否为有效信息。2.如权利要求1所述的货源信息分类方法,其特征在于,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:判断所述待分类货源信息中是否存在与关键词集中字符一致和/或拼音一致的字段,所述关键词集中包括多个预设定的禁用词;若是,则判断所述待分类货源信息为无效信息;若否,则判断所述待分类货源信息为准有效信息。3.如权利要求1所述的货源信息分类方法,其特征在于,所述基于规则匹配判断待分类货源信息是否为准有效信息包括:判断所述待分类货源信息中是命中无效信息规则集合中的规则,所述无效信息规则集合中包括多个预设定的无效信息规则;若是,则判断所述待分类货源信息为无效信息;若否,则判断所述待分类货源信息为准有效信息。4.如权利要求1所述的货源信息分类方法,其特征在于,所述提取所述待分类货源信息的特征获得特征向量包括:提取所述待分类货源信息的字段特征;提取所述待分类货源信息的拼音特征;提取所述待分类货源信息的字段特征;拼接所述待分类货源信息的字段特征、拼音特征以及字段特征,以形成所述待分类货源信息的特征向量。5.如权利要求1所述的货源信息分类方法,其特征在于,所述至少两个基学习器包括一个快速文本分类器,所述快速文本分类器包括依次相连的第...

【专利技术属性】
技术研发人员:郁博文张鹏
申请(专利权)人:江苏满运物流信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1