一种文档分类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：30408599 阅读：18 留言：0更新日期：2021-10-20 11:21

本发明专利技术公开了一种文档分类方法、装置、计算机设备及存储介质，涉及计算机及招标技术领域，该文档分类方法包括：获取待分类的目标招标文档；基于目标招标文档的文本内容提取分类特征向量；所述分类特征向量至少包括所述目标招标文档的标的物及分类信息；所述分类特征向量输入预先建立的文档分类模型，得到针对所述目标招标文档的分类结果；所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。可见，本发明专利技术实现了招标业务的自动高效管理，无需工作人员进行复杂操作，使得招标业务更加智能化和电子化，在提高效率的同时还降低了人力成本。成本。成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档分类方法、装置、计算机设备及存储介质

[0001]本专利技术涉及计算机及招标
，特别涉及一种文档分类方法、装置、计算机设备及存储介质。

技术介绍

[0002]现有的文档归档应用中，利用计算机对自然语言进行分类的技术已经涉及多个行业，然而，对于招标业务领域而言，由于招标业务数据繁多，使得工作人员难以实现对招标文档的高效管理，因此，有必要提出一种适用于招标业务领域的文档分类方案，以实现招标业务自动高效的管理，使得招标业务更加智能化、电子化。

技术实现思路

[0003]本专利技术要解决的技术问题是：提出一种适用于招标业务领域的文档分类方案，以实现招标业务自动高效的管理，使得招标业务更加智能化、电子化。
[0004]为解决上述技术问题，本专利技术提供了一种文档分类方法，包括：
[0005]获取待分类的目标招标文档；
[0006]基于所述目标招标文档的文本内容提取分类特征向量；其中，所述分类特征向量至少包括所述目标招标文档的标的物及分类信息；
[0007]将所述分类特征向量输入预先建立的文档分类模型，得到针对所述目标招标文档的分类结果；其中，所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
[0008]可选地，所述基于所述目标招标文档的文本内容提取分类特征向量，包括：
[0009]对所述目标招标文档的文本内容进行预处理；
[0010]对预处理后的...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法，其特征在于，包括：获取待分类的目标招标文档；基于所述目标招标文档的文本内容提取分类特征向量；其中，所述分类特征向量至少包括所述目标招标文档的标的物及分类信息；将所述分类特征向量输入预先建立的文档分类模型，得到针对所述目标招标文档的分类结果；其中，所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。2.根据权利要求1所述的文档分类方法，其特征在于，所述基于所述目标招标文档的文本内容提取分类特征向量，包括：对所述目标招标文档的文本内容进行预处理；对预处理后的文本内容进行分词处理并得到多个分词；基于所述多个分词提取分类特征向量。3.根据权利要求2所述的文档分类方法，其特征在于，所述基于所述多个分词提取分类特征向量，包括：对所述多个分词进行向量化表示，得到多个特征向量；利用词性级TF
‑
IDF算法对多个特征向量进行加权处理，并得到各特征向量对应的文档频率；根据所述文档频率从所述多个特征向量中确定分类特征向量。4.根据权利要求1
‑
3任一项所述的文档分类方法，其特征在于，所述分类信息至少包括行业类别和项目类型。5.根据权利要求2所述的文档分类方法，其特征在于，所述对预处理后的文本内容进行分词处理并得到多个分词，包括：基于N
‑<...

【专利技术属性】
技术研发人员：严蕾，苏晓辉，任泽，沈志远，李维盈，陈建，
申请(专利权)人：中国神华国际工程有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人