用于投标文档中项目和公司基础信息提取方法和装置制造方法及图纸

技术编号:36749984 阅读:23 留言:0更新日期:2023-03-04 10:35
本申请提出了一种用于投标文档中项目和公司基础信息提取方法,涉及智能招标技术领域,其中,该方法包括:获取投标文件;根据投标文件确定投标基础信息,并对投标基础信息进行符号化处理;根据投标基础信息,通过关键词筛选方法对投标文件进行筛选,得到关键词所在段落;基于BI

【技术实现步骤摘要】
用于投标文档中项目和公司基础信息提取方法和装置


[0001]本申请涉及智能招标
,尤其涉及一种用于投标文档中项目和公司基础信息提取方法和装置。

技术介绍

[0002]第一代电子招投标系统运行期间积累了大量的非结构化招投标文件,文件中包含了大量有价值信息,需要将文档中的主要指标数据提取出来,存入结构化数仓中,支撑后续分析、建模使用。但是由于非结构化文档的局限性,无法直接对其进行大数据分析及应用。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请的第一个目的在于提出一种用于投标文档中项目和公司基础信息提取方法,解决了由于非结构化文档的局限性,无法直接对非结构化文档进行大数据分析及应用的技术问题,通过关键字对投档文件进行筛选,并使用信息提取模型提取基础信息,形成结构化信息,从而能够快速提取文本数据信息。
[0005]本申请的第二个目的在于提出一种用于投标文档中项目和公司基础信息提取装置。
[0006]本申请的第三个目的在于提出一种计算机设备。
[0007]本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
[0008]为达上述目的,本申请第一方面实施例提出了一种用于投标文档中项目和公司基础信息提取方法,包括:获取投标文件;根据投标文件确定投标基础信息,并对投标基础信息进行符号化处理;根据投标基础信息,通过关键词筛选方法对投标文件进行筛选,得到关键词所在段落;基于BI

GRU和CRF构建信息提取模型,并对信息提取模型进行训练,得到训练好的信息提取模型;通过训练好的信息提取模型对关键词所在段落进行信息提取,得到投标基础信息的提取结果。
[0009]可选地,在本申请的一个实施例中,投标基础信息至少包括项目名称、项目编号、主设备名称、总价、设备数量、投标人名称、投标时间中的一种。
[0010]可选地,在本申请的一个实施例中,根据投标基础信息,通过关键词筛选方法对投标文件进行筛选,得到关键词所在段落,包括:
[0011]根据投标基础信息得到关键词,其中,关键词至少包括名称、总价、数量、文件、项目、设备、投标、公司、编号、年、月、日、日期、时间中的一种;
[0012]根据关键词对投标文件进行筛选,得到关键词所在段落。
[0013]可选地,在本申请的一个实施例中,对信息提取模型进行训练,得到训练好的信息提取模型,包括:
[0014]对投标基础信息进行序列化标注,得到标注结果;
[0015]获取训练集,并对训练集进行预处理;
[0016]将标注结果作为标签,基于训练集对信息提取模型进行训练,得到训练好的信息提取模型。
[0017]可选地,在本申请的一个实施例中,对训练集进行预处理,包括:
[0018]获取文本词典和标签词典,其中,文本词典包括所有中英文文字、数字和符号,标签词典包括序列化标注结果;
[0019]根据信息提取模型输入要求,将训练集中的特殊字符进行转换,并依据文本词典和标签词典,得到训练集中每个字符对应的id索引。
[0020]可选地,在本申请的一个实施例中,将标注结果作为标签,基于训练集对信息提取模型进行训练,得到训练好的信息提取模型,包括:
[0021]将id索引输入信息提取模型,得到信息提取模型输出的预测结果,将预测结果与标注结果输入损失函数,反向迭代更新模型参数,直到获得训练好的信息提取模型。
[0022]为达上述目的,本申请第二方面实施例提出了一种用于投标文档中项目和公司基础信息提取装置,包括:
[0023]获取模块,用于获取投标文件;
[0024]确定模块,用于根据投标文件确定投标基础信息,并对投标基础信息进行符号化处理;
[0025]筛选模块,用于根据投标基础信息,通过关键词筛选方法对投标文件进行筛选,得到关键词所在段落;
[0026]训练模块,用于基于BI

GRU和CRF构建信息提取模型,并对信息提取模型进行训练,得到训练好的信息提取模型;
[0027]提取模块,用于通过训练好的信息提取模型对关键词所在段落进行信息提取,得到投标基础信息的提取结果。
[0028]可选地,在本申请的一个实施例中,筛选模块,具体用于:
[0029]根据投标基础信息得到关键词,其中,关键词至少包括名称、总价、数量、文件、项目、设备、投标、公司、编号、年、月、日、日期、时间中的一种;
[0030]根据关键词对投标文件进行筛选,得到关键词所在段落。
[0031]为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的用于投标文档中项目和公司基础信息提取方法。
[0032]为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种用于投标文档中项目和公司基础信息提取方法。
[0033]本申请用于投标文档中项目和公司基础信息提取方法、装置、计算机设备和非临时性计算机可读存储介质,解决了由于非结构化文档的局限性,无法直接对非结构化文档进行大数据分析及应用的技术问题,通过关键字对投档文件进行筛选,并使用信息提取模型提取基础信息,形成结构化信息,从而能够快速提取文本数据信息。
[0034]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0035]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0036]图1为本申请实施例一所提供的一种用于投标文档中项目和公司基础信息提取方法的流程图;
[0037]图2为本申请实施例的用于投标文档中项目和公司基础信息提取方法的信息提取模型的结构示例图;
[0038]图3为本申请实施例的用于投标文档中项目和公司基础信息提取方法的信息提取模型的训练流程示意图;
[0039]图4为本申请实施例二所提供的一种用于投标文档中项目和公司基础信息提取装置的结构示意图。
具体实施方式
[0040]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0041]在供应商投标文件一般分为商务文档、技术文档和报价文档。在每种文档中都包含项目名称、招标编号、项目编号、项目主要货物名称数量、投标单位、投标日期等等项目基础信息和供应商基础信息。这些信息散布在文档的各个地方,需要设计一种用于投标文档中项目和公司基础信息提取方法,将基础信息提取出来,形成结构化信息。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于投标文档中项目和公司基础信息提取方法,其特征在于,包括以下步骤:获取投标文件;根据所述投标文件确定投标基础信息,并对所述投标基础信息进行符号化处理;根据所述投标基础信息,通过关键词筛选方法对所述投标文件进行筛选,得到关键词所在段落;基于BI

GRU和CRF构建信息提取模型,并对所述信息提取模型进行训练,得到训练好的信息提取模型;通过训练好的信息提取模型对所述关键词所在段落进行信息提取,得到投标基础信息的提取结果。2.如权利要求1所述的方法,其特征在于,所述投标基础信息至少包括项目名称、项目编号、主设备名称、总价、设备数量、投标人名称、投标时间中的一种。3.如权利要求1所述的方法,其特征在于,所述根据所述投标基础信息,通过关键词筛选方法对所述投标文件进行筛选,得到关键词所在段落,包括:根据所述投标基础信息得到关键词,其中,所述关键词至少包括名称、总价、数量、文件、项目、设备、投标、公司、编号、年、月、日、日期、时间中的一种;根据所述关键词对所述投标文件进行筛选,得到关键词所在段落。4.如权利要求1所述的方法,其特征在于,所述对所述信息提取模型进行训练,得到训练好的信息提取模型,包括:对所述投标基础信息进行序列化标注,得到标注结果;获取训练集,并对所述训练集进行预处理;将所述标注结果作为标签,基于训练集对所述信息提取模型进行训练,得到训练好的信息提取模型。5.如权利要求4所述的方法,其特征在于,所述对所述训练集进行预处理,包括:获取文本词典和标签词典,其中,所述文本词典包括所有中英文文字、数字和符号,标签词典包括序列化标注结果;根据所述信息提取模型输入要求,将所述训练集中的特殊字符进行转换,并依据所述文本词典和标签词典,得到所述训练集中每个...

【专利技术属性】
技术研发人员:赵东明周子岩赵可邸智刘雅欣
申请(专利权)人:中国华能集团清洁能源技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1