基于聚类的对非结构化招标要求文本的提取方法及系统技术方案

技术编号:38133111 阅读:10 留言:0更新日期:2023-07-08 09:42
本发明专利技术提供了一种基于聚类的对非结构化招标要求文本的提取方法及系统,包括:基础文本处理,对非结构化的文本全集进行分词、文本嵌入、降维操作,获得每个文本全集的低维特征向量;文本聚类,根据低维特征向量,对文本全集进行聚类;规则提取,根据分类结果,从文本全集抽样出M个样本量约为n的子数据集,指定其中一个为训练集,其余为测试集;标注与算法迭代,对所有训练集数据与测试集数据进行标注;算法检验,从文本全集中抽样出一个检验集。本发明专利技术通过使用无监督的算法作为预处理,利用大类抽样数据和小类数据进行规则总结和标注的方法,避免了大量的前期数据标注工作;缩小了规则总结需要关注的文本范围;降低了需要人工处理的数据量。据量。据量。

【技术实现步骤摘要】
基于聚类的对非结构化招标要求文本的提取方法及系统


[0001]本专利技术涉及知识抽取的
,具体地,涉及基于聚类的对非结构化招标要求文本的提取方法及系统,尤其涉及一种基于聚类和规则的对非结构化招标要求文本的提取方法及系统。

技术介绍

[0002]目前众多知识抽取方法主要分为两类。一是依赖大量标注数据,基于深度学习的抽取方法;二是手动整理规则的抽取方法,二者都需要比较大量的人工工作。招标要求一般都是由采购方以文本的形式撰写,各家公司用语可能差别很大,但各家公司关注的重点比较相近,通过聚类可以发现这些相似点,提升人工效率。
[0003]在公开号为CN114996408A的专利文献中公开了一种基于Bert的面向非结构化电力数据的知识抽取方法及系统,该方法中,对触发词明显、句式和位置相对固定的知识,使用正则匹配方法抽取知识实体,对于非结构化电力数据中存在实体界限模糊和实体嵌套问题,通过基于Bert的知识抽取方法来抽取知识实体,然后再利用实体抽取的结果使用基于Bert的预训练语言模型进行关系和属性抽取,最终实现对非结构化电力数据的知识抽取,充分考虑了非结构化电力数据的句式和结构,适于非结构化电力数据的知识抽取,属于一种深度学习的知识抽取方法,而深度学习方法可以自动学习特征,采用低维、稠密的实值向量表示数据,避免了对人工和专家知识的严重依赖。虽然使用了规则+深度学习抽取的方法,但对规则的整理没有系统的模式,效率不高且容易出现遗漏或错误;同时需要为Bert标注大量数据,耗费了较多的人工成本。同时,Bert抽取结果的可解释性不及规则模型,在商业场景中出错风险更大。
[0004]因此,需要提出一种新的技术方案以改善上述技术问题。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种基于聚类的对非结构化招标要求文本的提取方法及系统。
[0006]根据本专利技术提供的一种基于聚类的对非结构化招标要求文本的提取方法,所述方法包括如下步骤:
[0007]步骤S1:获取平台历史询价单数据,采购方发布招标要求字段;对非结构化的文本全集进行分词、文本嵌入、降维操作,获得每个文本全集的低维特征向量;
[0008]步骤S2:根据低维特征向量,对文本全集进行聚类;调整聚类算法参数,优化输出的分类结果;
[0009]步骤S3:根据分类结果,从文本全集抽样出M个样本量为n的子数据集,指定其中一个为训练集,其余为测试集;使用聚类算法加人工整理的方法,对训练集整理出文本抽取规则,并编写代码形成文本抽取模型;
[0010]步骤S4:对所有训练集数据与测试集数据进行标注;使用文本抽取模型对训练集
进行处理;根据处理结果,反复调整训练集与测试集,迭代文本抽取规则;
[0011]直到正确率大于等于预期阈值;
[0012]步骤S5:从文本全集中抽样出一个检验集,运行文本抽取模型并用混淆矩阵评价其结果,关注查准率和查全率;如果查准率和查全率均符合预期阈值,则文本抽取模型通过,否则继续迭代错误部分。
[0013]优选地,所述步骤S1包括如下步骤:
[0014]步骤S1.1:基于工业品领域词库,使用jieba分词工具对训练样本中的文本进行分词;分词后去除无意义的停用词;
[0015]步骤S1.2:使用Word2vec词嵌入模型对分词后的分词序列进行训练,得到供应链领域词嵌入模型;选取模型结果维度,对文本中所有词向量加和并归一化后,得到文本的低维特征向量。
[0016]优选地,所述步骤S2包括如下步骤:
[0017]步骤S2.1:若是第一次进行文本聚类,则设置初始的聚类数或者初始的聚类条件,逐步增多聚类数或收紧聚类条件;每个结果集的文本数量逐渐减少;计算机显示结果集,当相似的结果被分到不同结果集,或无效结果数量上升时,停止并回调参数;
[0018]步骤S2.2:若重新文本聚类,此时已经有文本抽取规则;根据以下聚类效果评估分数计算公式计算分数S:
[0019][0020]其中C表示分类数量,C2表示单个分类匹配上多条规则的数量;R表示已有规则数量,R2表示单个规则匹配上多个分类的数量;N
s
表示小类样本量总和;
[0021]尝试多组参数;在结果中选取其中一个进入步骤S3。
[0022]优选地,所述步骤S3包括如下步骤:
[0023]步骤S3.1:根据步骤S2中设定的阈值区分大类与小类;从每个大类中随机抽样出M组数据集,每组数据集的数量是n*u/U,其中U是样本全集数量;u是该大类的样本数量;n为预设整数,用来控制测试集的大小;其中训练集为1个,测试集为M

1个;
[0024]步骤S3.2:针对每个大类抽取出的训练集数据和每个小类的数据,人工整理文本抽取规则;
[0025]步骤S3.3:如果每个分类不能总结出文本抽取规则,则总结出预设数量规则后,触发步骤S2.2继续执行,重新进行聚类;
[0026]步骤S3.4:将所有大类的数据合并为M组n个的数据集,并区分训练集、测试集;对每个小类,选取两条数据,一条加入训练集,另一条加入任意测试集;
[0027]步骤S3.5:针对所有整理出来的文本抽取规则编写代码模型。
[0028]优选地,所述步骤S4包括如下步骤:
[0029]步骤S4.1:对所有训练集数据与测试集数据进行标注;
[0030]步骤S4.2:在训练集上运行步骤S3的文本抽取模型,并根据标注数据计算正确率;如果正确率小于阈值,则触发步骤S3继续执行,根据错误内容进一步整理文本抽取规则;如果正确率大于等于阈值,则对所有测试集进行处理;如果测试集正确率小于阈值,则把该测
试集加入训练集,并重新抽取一个测试集,触发步骤S3继续执行;
[0031]直到在所有测试集上,正确率均大于等于阈值。
[0032]本专利技术还提供一种基于聚类的对非结构化招标要求文本的提取系统,所述系统包括如下模块:
[0033]模块M1:获取平台历史询价单数据,采购方发布招标要求字段;对非结构化的文本全集进行分词、文本嵌入、降维操作,获得每个文本全集的低维特征向量;
[0034]模块M2:根据低维特征向量,对文本全集进行聚类;调整聚类算法参数,优化输出的分类结果;
[0035]模块M3:根据分类结果,从文本全集抽样出M个样本量为n的子数据集,指定其中一个为训练集,其余为测试集;使用聚类算法加人工整理的系统,对训练集整理出文本抽取规则,并编写代码形成文本抽取模型;
[0036]模块M4:对所有训练集数据与测试集数据进行标注;使用文本抽取模型对训练集进行处理;根据处理结果,反复调整训练集与测试集,迭代文本抽取规则;
[0037]直到正确率大于等于预期阈值;
[0038]模块M5:从文本全集中抽样出一个检验集,运行文本抽取模型并用混淆矩阵评价其结果,关注查准率和查全率;如果查准率和查全率均符合预期阈值,则文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的对非结构化招标要求文本的提取方法,其特征在于,所述方法包括如下步骤:步骤S1:获取平台历史询价单数据,采购方发布招标要求字段;对非结构化的文本全集进行分词、文本嵌入、降维操作,获得每个文本全集的低维特征向量;步骤S2:根据低维特征向量,对文本全集进行聚类;调整聚类算法参数,优化输出的分类结果;步骤S3:根据分类结果,从文本全集抽样出M个样本量为n的子数据集,指定其中一个为训练集,其余为测试集;使用聚类算法加人工整理的方法,对训练集整理出文本抽取规则,并编写代码形成文本抽取模型;步骤S4:对所有训练集数据与测试集数据进行标注;使用文本抽取模型对训练集进行处理;根据处理结果,反复调整训练集与测试集,迭代文本抽取规则;直到正确率大于等于预期阈值;步骤S5:从文本全集中抽样出一个检验集,运行文本抽取模型并用混淆矩阵评价其结果,关注查准率和查全率;如果查准率和查全率均符合预期阈值,则文本抽取模型通过,否则继续迭代错误部分。2.根据权利要求1所述的基于聚类的对非结构化招标要求文本的提取方法,其特征在于,所述步骤S1包括如下步骤:步骤S1.1:基于工业品领域词库,使用jieba分词工具对训练样本中的文本进行分词;分词后去除无意义的停用词;步骤S1.2:使用Word2vec词嵌入模型对分词后的分词序列进行训练,得到供应链领域词嵌入模型;选取模型结果维度,对文本中所有词向量加和并归一化后,得到文本的低维特征向量。3.根据权利要求1所述的基于聚类的对非结构化招标要求文本的提取方法,其特征在于,所述步骤S2包括如下步骤:步骤S2.1:若是第一次进行文本聚类,则设置初始的聚类数或者初始的聚类条件,逐步增多聚类数或收紧聚类条件;每个结果集的文本数量逐渐减少;计算机显示结果集,当相似的结果被分到不同结果集,或无效结果数量上升时,停止并回调参数;步骤S2.2:若重新文本聚类,此时已经有文本抽取规则;根据以下聚类效果评估分数计算公式计算分数S:其中C表示分类数量,C2表示单个分类匹配上多条规则的数量;R表示已有规则数量,R2表示单个规则匹配上多个分类的数量;N
s
表示小类样本量总和;尝试多组参数;在结果中选取其中一个进入步骤S3。4.根据权利要求1所述的基于聚类的对非结构化招标要求文本的提取方法,其特征在于,所述步骤S3包括如下步骤:步骤S3.1:根据步骤S2中设定的阈值区分大类与小类;从每个大类中随机抽样出M组数据集,每组数据集的数量是n*u/U,其中U是样本全集数量;u是该大类的样本数量;n为预设
整数,用来控制测试集的大小;其中训练集为1个,测试集为M

1个;步骤S3.2:针对每个大类抽取出的训练集数据和每个小类的数据,人工整理文本抽取规则;步骤S3.3:如果每个分类不能总结出文本抽取规则,则总结出预设数量规则后,触发步骤S2.2继续执行,重新进行聚类;步骤S3.4:将所有大类的数据合并为M组n个的数据集,并区分训练集、测试集;对每个小类,选取两条数据,一条加入训练集,另一条加入任意测试集;步骤S3.5:针对所有整理出来的文本抽取规则编写代码模型。5.根据权利要求1所述的基于聚类的对非结构化招标要求文本的提取方法,其特征在于,所述步骤S4包括如下步骤:步骤S4.1:对所有训练集数据与测试集数据进行标注;步骤S4.2:在训练集上运行步骤S3的文本抽取模型,并根据标注数据计算正确率;如果正确率小于阈值,则触发步骤S3继续执行,根据错误内容进一步整理文本抽取规则;如果正确率大于等于阈值,则对所有测试集进行处理;如果测试集正确率小于阈值,则把该测试集加入训练集,并重新抽取一个测试集,触发步骤S3继续执行;直到在所有测试集上,正确率均大于等于阈值。6.一种...

【专利技术属性】
技术研发人员:沈达峰夏竟翔朱俊姚泽坤闫晨光李燕北孙志强戴智鑫
申请(专利权)人:欧冶工业品股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1