System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其是一种关系抽取方法,更具体涉及一种基于增强知识检索和大语言模型协同优化的产业污染知识关系抽取方法。
技术介绍
1、关系抽取在自然语言处理领域占据着核心地位,其目标是通过文本建模,从非结构化的中文文本中提取实体间的语义关系,并将其转化为结构化数据。作为知识图谱构建的关键步骤,关系抽取在多个领域发挥着重要作用,包括但不限于知识图谱构建、问答系统、自动摘要和智能推荐。在城市环境管理中,有效识别产业污染风险及其相关因素对于制定有效的环境策略至关重要。
2、尽管传统关系抽取方法依赖于特征工程和监督学习,但它们通常需要大量的标注数据,并且缺乏跨领域的通用性。这些方法依赖于手工设计的特征和浅层机器学习模型,难以捕捉句子中的多维语义信息,如词汇、句法结构、上下文语义以及领域专有名词。句子结构的多样性和语义关系的复杂性使得传统模型难以精确识别实体间的关系。随着深度学习技术的快速发展,大语言模型通过大规模无监督学习,能够掌握丰富的语义知识,从而在实体识别和关系抽取等信息提取任务中展现出强大的推理能力然而,现有的基于生成的关系抽取方法在处理长尾关系、复杂领域文本时仍存在局限,尤其是在缺乏上下文信息支持的情况下,大语言模型生成的关系可能不够准确,无法满足高精度关系抽取的需求。
3、当前,污染场地信息的多维度、多类型、多来源和大数据量特点,迫切需要通过数字化和信息化手段进行深入挖掘和管理。自动化的产业污染关系抽取方法对于从大规模非结构化文本中提取高质量知识至关重要,这不仅能够提高信息检索的准确性,还
技术实现思路
1、针对现有技术的不足,本专利技术提出了一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法。
2、本专利技术的技术方案为:一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,包括以下步骤:
3、s1)、收集大规模某市污染数据,对收集到的文本进行分句、清洗处理,去除无效字符和噪音,构建训练数据集d。
4、s2)、根据步骤s1)得到的训练数据集d中的句子q,检索q和与q有关系的实体对(包括:头实体和尾实体)。将检索到的查询句子q进行编码,构建编码数据库,使用余弦相似度计算得到相似度得分。将编码数据库中得分最高的句子作为与q相似的句子。
5、s3)、通过将查询句子q及其相似语句输入到提示构建器,构建针对特定实体对的提示指令,并利用大语言模型生成潜在关系以进行推理。
6、s4)、根据构建的提示指令,使用参数高效微调框架对大语言模型进行微调,生成高质量的关系抽取结果。
7、上述方法中,步骤s1)中,对收集到的文本进行分句、清洗处理,去除无效字符和噪音,构建训练数据集d,具体如下:
8、将收集到的文本按句子进行分割。这可以通过基于标点符号(如句号、问号、感叹号等)来实现,确保每个句子都被单独提取。
9、删除文本中的无效字符,如多余的空格、换行符、制表符等。
10、识别并去除文本中的噪音数据,包括但不限于无关的广告、网页信息、重复的内容、乱码等。
11、对保留的文本内容进行初步验证,确保其与预期的任务目标相关。
12、上述方法中,步骤s2)中,根据步骤s1)得到的训练数据集d中的查询句子q,检索q和与q有关系的实体对(包括:头实体和尾实体)。将检索到的查询句子q进行编码,构建编码数据库,使用余弦相似度计算得到相似度得分。将编码数据库中得分最高的句子作为与q相似的句子,具体如下:
13、使用预训练的bge-base-zh-v1.5模型作为编码模型,将检索到的查询句子q输入到编码器模型中进行处理。模型对每个输入的句子进行编码,将其转换为高维的向量,构建编码数据库。
14、使用余弦相似度,在编码数据库中,对每个向量计算该向量与所有训练样本的句子相似度得分.根据计算得到的余弦相似度得分,将数据库中所有训练句子的向量按相似度从高到低进行排序。从排序后的结果中选择相似度最高的若干个句子作为最相似的查询实例。余弦相似度的计算公式如下:
15、
16、其中,a和b是两个嵌入向量,点积表示两个向量之间的相似性,而分母是两个向量的模长。相似度得分的取值范围为[-1,1],分数越接近1,表示两个嵌入向量的语义越相似。
17、根据计算得到的余弦相似度得分,将数据库中所有训练句子的嵌入按相似度从高到低进行排序。相似度得分越高,句子与查询句子的语义越接近。从排序后的结果中选择相似度最高的若干个句子作为最相似的查询实例。
18、将最相似的句子实例集作为数据增强的输入,生成一个相似数据集。该相似数据集中的句子与查询句子q在语义上接近,从而可以用于增强训练数据的多样性。
19、上述方法中,步骤s3)中,通过将查询句子q及其相似语句输入到提示构建器,构建针对特定实体对的提示指令,并利用大语言模型生成潜在关系以进行推理,具体如下:
20、首先将训练数据集d中的句子q、对应的实体对以及它们之间的关系输入到提示构建器中,以便为生成任务提供必要的上下文信息。同时,将步骤s2)中检索到的与q具有较高相似性的句子,连同这些相似句子中的实体对及其关系一同输入到提示构建器中这些相似句不仅为大语言模型提供了更多的语境信息,还为目标实体对的关系推理提供了参考依据。
21、提示构建器接收所有输入,并基于输入的信息构建包含特定实体对的提示指令。这些提示指令旨在引导生成式模型生成正确的三元组关系。构建的提示指令包括以下关键元素:目标语句、目标实体对、相似句及其实体对和关系、以及模型可选择的关系类型。这种多层次的提示设计,有助于大模型在生成过程中更好地理解实体之间的关系,确保生成结果的准确性和一致性。
22、上述方法中,步骤s4)中,根据构建的提示指令,使用参数高效微调框架对大语言模型进行微调,生成高质量的关系抽取结果,具体如下:
23、peft技术通过仅对大语言模型中一小部分参数进行微调,而非调整全部参数,有效应对了微调资源消耗大的挑战。该方法在保持与全参数微调相近性能的同时,显著降低了微调所需的资源。作为peft技术的一个实例,lora利用了低秩矩阵近似,通过引入两个分别标记为a和b的低秩矩阵,实现了对大语言模型权重的微小调整。这种策略通过减少对大语言模型参数的总体更改,有助于在大语言模型的微调过程中降低内存使用量。例如,考虑到大语言模型的权重矩阵w0,其更新通过低秩分解进行约束,只涉及训练b和a,其中b∈rd×r,a∈rr×k,r≪min(d,k)。具体表达式如下:
24、
25、本专利技术选择qwen1.5-7b大语言模型进行微调,以实现中文关系抽取任务。
26、在微调过程本文档来自技高网...
【技术保护点】
1.一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于,包括如下具体步骤:
2. 根据权利要求 1 所述的一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于:步骤 S1)中,对收集到的文本进行分句、清洗处理,去除无效字符和噪音,构建训练数据集 d,具体如下:
3. 根据权利要求 1 所述的一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于:步骤 S2)中,对于步骤 S1)所得的去噪文本,检索句子q 和与 q 有关系的一对实体对(包括头实体和尾实体)。将检索到的查询句子 q 进行编码,构建编码数据库,使用余弦相似度计算得到相似度得分。将编码数据库中得分最高的句子作为与 q 相似的句子,具体步骤如下:
4. 根据权利要求 3 所述的一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于:步骤 S3)中,通过将查询语句 q 及其相似语句输入提示构建器,构建针对特定实体对的提示指令,并利用大语言模型生成潜在关系以进行推理,具体如下:
6.根据权利要求 4 所述的一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于:步骤 S4)中,根据构建有效的提示,使用参数高效微调框架对大语言模型进行微调,生成高质量的关系抽取结果,具体步骤如下:
...【技术特征摘要】
1.一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于,包括如下具体步骤:
2. 根据权利要求 1 所述的一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于:步骤 s1)中,对收集到的文本进行分句、清洗处理,去除无效字符和噪音,构建训练数据集 d,具体如下:
3. 根据权利要求 1 所述的一种基于增强知识检索与大语言模型协同优化的产业污染知识关系抽取方法,其特征在于:步骤 s2)中,对于步骤 s1)所得的去噪文本,检索句子q 和与 q 有关系的一对实体对(包括头实体和尾实体)。将检索到的查询句子 q 进行编码,构建编码数据库,使用余弦相似度计...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。