System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种招投标候选单位的信息抽取和风险分析方法技术_技高网

一种招投标候选单位的信息抽取和风险分析方法技术

技术编号:43228137 阅读:0 留言:0更新日期:2024-11-05 17:17
本发明专利技术公开了一种招投标候选单位的信息抽取和风险分析方法,包括四个处理模块,分别为数据预处理模块、信息检测模块、信息抽取模块和风险分析模块,所述数据预处理模块是依据HTML结构对文本进行分块,并对每一块的文本进行基本的数据预处理,所述信息检测模块是判断文本中是否包含中标候选人信息,所述信息抽取模块是利用大语言模型从文本中抽取中标候选单位的名称,所述风险分析模块是基于招投标候选单位信息抽取结果的应用模块,并进行潜在风险分析,本发明专利技术主要使用大语言模型进行招投标候选单位信息抽取,其一可以快速适配新数据源,不需要额外的开发,其二对HTML各种样式的数据扩展性好,其三,对旧数据源的人工维护成本低。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种招投标候选单位的信息抽取和风险分析方法


技术介绍

1、招投标是很多企业获取项目的重要途径。在招标流程中,会有候选单位信息公示,其对于市场调研、产业链分析、公司经营状况分析等任务非常重要。如何快速从多源的半结构化数据中提取到候选单位信息一直是相关领域的难点。目前,主流的解决办法是用正则表达式或者lstm(长短期记忆)+crf(条件随机场)模型,它们的缺点是需要定期维度,且维护成本高;

2、最近两年,随着算力和数据规模的飞速发展,大语言模型涌现出非常惊人的效果,本专利技术尝试用大语言模型进行招投标候选单位的信息提取,并对提取出来的单位信息进行关联,分析招投标过程中存在的潜在风险。


技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种招投标候选单位的信息抽取和风险分析方法。

2、为了实现上述目的,本专利技术采用了如下技术方案:

3、一种招投标候选单位的信息抽取和风险分析方法,包括四个处理模块,分别为数据预处理模块、信息检测模块、信息抽取模块和风险分析模块;

4、所述数据预处理模块是依据html结构对文本进行分块,并对每一块的文本进行基本的数据预处理;

5、所述信息检测模块是判断文本中是否包含中标候选人信息;

6、所述信息抽取模块是利用大语言模型从文本中抽取中标候选单位的名称;

7、所述风险分析模块是基于招投标候选单位信息抽取结果的应用模块,并进行潜在风险分析。

8、优选地,所述数据预处理模块的具体步骤包括:

9、(1)以html的表格标签为分隔符,对文本进行拆分,并且保留分隔符文本;

10、(2)对于拆分出来的每一个文本,判断如是否为html表格,如果其是html表格,将其转换成markdown形式的表格,如果其不是html表格,将其直接去除html标签;

11、(3)对于每一个文本,进行文本清洗。

12、优选地,所述信息检测模块采用bert模型作为文本分类模型的预训练模型,从旧方案中整理出训练数据,预先将不相关的内容进行排除。

13、优选地,所述信息抽取模块中大语言模型的训练方式为:

14、(1)从不同数据源中抽取一定数量的文本,利用旧方案,生成两百万的训练集;

15、(2)使用lora(低秩适配器)和p-tuning(提示微调)相结合的方式来微调大语言模型,输出中标候选单位名称。

16、优选地,所述风险分析模块的具体步骤为:

17、(1)将抽取到的单位名称进行清洗,和工商信息库、公司简称库以及公司曾用名库进行匹配和去重;

18、(2)根据得到的结果构建知识图谱,如果两个单位是同一个招标项目的候选单位,就认为两者存在“竞争”关系;

19、(3)根据中标信息,进行招标过程中潜在风险分析。

20、与现有技术相比,本专利技术的有益效果是:

21、本专利技术主要使用大语言模型进行招投标候选单位信息抽取,其一可以快速适配新数据源,不需要额外的开发,其二对html各种样式的数据扩展性好,其三,对旧数据源的人工维护成本低。

本文档来自技高网...

【技术保护点】

1.一种招投标候选单位的信息抽取和风险分析方法,其特征在于,包括四个处理模块,分别为数据预处理模块、信息检测模块、信息抽取模块和风险分析模块;

2.根据权利要求1所述的一种招投标候选单位的信息抽取和风险分析方法,其特征在于,所述数据预处理模块的具体步骤包括:

3.根据权利要求1所述的一种招投标候选单位的信息抽取和风险分析方法,其特征在于,所述信息检测模块采用BERT模型作为文本分类模型的预训练模型,从旧方案中整理出训练数据,预先将不相关的内容进行排除。

4.根据权利要求1所述的一种招投标候选单位的信息抽取和风险分析方法,其特征在于,所述信息抽取模块中大语言模型的训练方式为:

5.根据权利要求1所述的一种招投标候选单位的信息抽取和风险分析方法,其特征在于,所述风险分析模块的具体步骤为:

【技术特征摘要】

1.一种招投标候选单位的信息抽取和风险分析方法,其特征在于,包括四个处理模块,分别为数据预处理模块、信息检测模块、信息抽取模块和风险分析模块;

2.根据权利要求1所述的一种招投标候选单位的信息抽取和风险分析方法,其特征在于,所述数据预处理模块的具体步骤包括:

3.根据权利要求1所述的一种招投标候选单位的信息抽取和风险分析方法,其特征在于,所述信...

【专利技术属性】
技术研发人员:徐立群李正郭海涛
申请(专利权)人:安徽智侒信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1