一种文档分类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30408599 阅读:18 留言:0更新日期:2021-10-20 11:21
本发明专利技术公开了一种文档分类方法、装置、计算机设备及存储介质,涉及计算机及招标技术领域,该文档分类方法包括:获取待分类的目标招标文档;基于目标招标文档的文本内容提取分类特征向量;所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。可见,本发明专利技术实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。成本。成本。

【技术实现步骤摘要】
一种文档分类方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机及招标
,特别涉及一种文档分类方法、装置、计算机设备及存储介质。

技术介绍

[0002]现有的文档归档应用中,利用计算机对自然语言进行分类的技术已经涉及多个行业,然而,对于招标业务领域而言,由于招标业务数据繁多,使得工作人员难以实现对招标文档的高效管理,因此,有必要提出一种适用于招标业务领域的文档分类方案,以实现招标业务自动高效的管理,使得招标业务更加智能化、电子化。

技术实现思路

[0003]本专利技术要解决的技术问题是:提出一种适用于招标业务领域的文档分类方案,以实现招标业务自动高效的管理,使得招标业务更加智能化、电子化。
[0004]为解决上述技术问题,本专利技术提供了一种文档分类方法,包括:
[0005]获取待分类的目标招标文档;
[0006]基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
[0007]将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
[0008]可选地,所述基于所述目标招标文档的文本内容提取分类特征向量,包括:
[0009]对所述目标招标文档的文本内容进行预处理;
[0010]对预处理后的文本内容进行分词处理并得到多个分词;
[0011]基于所述多个分词提取分类特征向量。
[0012]可选地,所述基于所述多个分词提取分类特征向量,包括:
[0013]对所述多个分词进行向量化表示,得到多个特征向量;
[0014]利用词性级TF

IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;
[0015]根据所述文档频率从所述多个特征向量中确定分类特征向量。
[0016]可选地,所述分类信息至少包括行业类别和项目类型。
[0017]可选地,所述对预处理后的文本内容进行分词处理并得到多个分词,包括:
[0018]基于N

Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
[0019]可选地,所述N

Gram语言模型中N的取值为2和/或3。
[0020]可选地,所述根据所述文档频率从所述多个特征向量中确定分类特征向量,包括:
[0021]逐一判断各特征向量的文档频率是否大于设定值;
[0022]保留文档频率不大于设定值的特征向量,作为分类特征向量。
[0023]为解决上述技术问题,本专利技术提供了一种文档分类装置,包括:
[0024]文档获取模块,用于获取待分类的目标招标文档;
[0025]向量提取模块,用于基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
[0026]分类模块,用于将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
[0027]可选地,所述向量提取模块,包括:预处理单元、分词处理单元和向量提取单元;其中,
[0028]所述预处理单元,用于对所述目标招标文档的文本内容进行预处理;
[0029]所述分词处理单元,用于对预处理后的文本内容进行分词处理并得到多个分词;
[0030]所述向量提取单元,用于基于所述多个分词提取分类特征向量。
[0031]可选地,所述向量提取单元用于:对所述多个分词进行向量化表示,得到多个特征向量;利用词性级TF

IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;根据所述文档频率从所述多个特征向量中确定分类特征向量。
[0032]可选地,所述分类信息至少包括行业类别和项目类型。
[0033]可选地,所述分词处理单元用于:基于N

Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
[0034]可选地,所述N

Gram语言模型中N的取值为2和/或3。
[0035]可选地,所述所述向量提取单元具体用于:逐一判断各特征向量的文档频率是否大于设定值;保留文档频率不大于设定值的特征向量,作为分类特征向量。
[0036]为解决上述技术问题,本专利技术提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
[0037]为解决上述技术问题,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法。
[0038]与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
[0039]应用本专利技术的文档分类方案进行招标文档分类时,先获取待分类的目标招标文档,基于目标招标文档的文本内容提取分类特征向量,再将分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立档训练数据与所述历史招标文档分类结果之间的映射关系的分类器,可以看出,本专利技术实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本专利技术实施例提供的文档分类方法的一种流程图;
[0042]图2为本专利技术实施例提供的文档分类方法的另一种流程图;
[0043]图3为本专利技术实施例提供的基于N

Gram语言模型进行分词的分词效果;
[0044]图4为本专利技术实施例提供的基于多个分词提取分类特征向量的流程图;
[0045]图5为本专利技术实施例提供的基于Xgboos构建的文档分类模型的示意图;
[0046]图6为本专利技术实施例提供的对目标招标文档的文本内容进行预处理的示意图;
[0047]图7为本专利技术实施例提供的基于计数向量、TF

IDF、N

Gram结合TF

IDF三本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法,其特征在于,包括:获取待分类的目标招标文档;基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。2.根据权利要求1所述的文档分类方法,其特征在于,所述基于所述目标招标文档的文本内容提取分类特征向量,包括:对所述目标招标文档的文本内容进行预处理;对预处理后的文本内容进行分词处理并得到多个分词;基于所述多个分词提取分类特征向量。3.根据权利要求2所述的文档分类方法,其特征在于,所述基于所述多个分词提取分类特征向量,包括:对所述多个分词进行向量化表示,得到多个特征向量;利用词性级TF

IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;根据所述文档频率从所述多个特征向量中确定分类特征向量。4.根据权利要求1

3任一项所述的文档分类方法,其特征在于,所述分类信息至少包括行业类别和项目类型。5.根据权利要求2所述的文档分类方法,其特征在于,所述对预处理后的文本内容进行分词处理并得到多个分词,包括:基于N
‑<...

【专利技术属性】
技术研发人员:严蕾苏晓辉任泽沈志远李维盈陈建
申请(专利权)人:中国神华国际工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1