一种基于优化词嵌入的检索增强生成方法技术

技术编号：42054409 阅读：33 留言：0更新日期：2024-07-16 23:33

本发明专利技术公开了一种基于优化词向量嵌入增强检索生成方法，属于自然语言处理领域。本发明专利技术引入了开源的大语言模型与基础嵌入模型并提出了一种自适应上下文采样的跳图算法对基础嵌入模型进行优化。与传统的跳图模型相比，优化后的嵌入模型能更准确地捕捉文本中词语的语义信息，通过根据每个单词的语境特征动态调整上下文窗口大小，从而提高单词嵌入的质量和效率，能更好地处理低频词。自适应上下文采样帮助模型更加关注语境信息使模型具有更好的适应能力与泛化能力，通过对嵌入算法进行优化处理和预训练，检索增强方法能够生成非常详细和准确的响应，避免了在特定数据集上微调语言模型的开销，大大降低了特定领域使用大语言模型进行检索的成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体的涉及一种基于优化词嵌入的检索增强生成方法。

技术介绍

1、在自然语言处理领域的进步，特别是生成式模型的发展，已经显著推动了信息检索与文本生成技术的融合。特别是，基于transformer架构的大型语言模型在生成连贯、语义丰富文本方面取得了突破性进展，为检索增强生成方法提供了生成阶段高质量答案的新基础。然而，尽管这些先进模型在理解和生成自然语言方面表现卓越，它们的知识仍然局限于训练期间所接触的数据范围。这一局限性意味着，对于超出训练数据范畴的问题，模型可能无法生成准确的答案。

2、此外，传统的检索增强生成技术通过结合信息检索和生成式模型来处理问答和文本生成任务，虽然这种方法能够引入大量的外部知识，但其效果高度依赖于检索步骤的质量。不精确的检索可能导致生成内容与所需信息不匹配，从而降低了生成文本的准确性和可靠性，甚至产生信息过载或解释性差的问题。

3、为了克服上述弊端，提出了基于优化词嵌入的检索增强生成方法，通过优化嵌入模型算法精确大语言模型在信息检索时匹配到对应文本向量的精度，将生成式模型和检索式模型相结合，取长补短，以实现更加全面和强大的自然语言处理。在此方法中，基于优化词嵌入的关键技术起到了至关重要的作用。词嵌入是将文本映射到高维空间的方法，将词汇或句子表示为向量。通过对嵌入算法进行优化，检索增强生成模型能够将检索到的文本与生成的文本在语义上更好地对齐，从而提高生成文本的质量和准确性，通过整合知识库中的结构化信息进行更复杂的推理和分析，从而在提供信息和回答问题时更加可靠。

技术实现思路

1、专利技术目的：本专利技术提出一种基于优化词嵌入的检索增强生成方法。专利技术目的如下：

2、(1)针对传统大语言模型信息检索和文本生成方法存在检索专业性，准确性和相关性不高，生成的文本质量不佳，缺乏语义理解和连贯性。本专利技术使用优化词嵌入技术能够将检索和生成进行整合，从而实现更准确、相关性更高和质量更好的文本生成。

3、(2)大语言模型具有强大的语言处理能力和高效的信息检索能力，但在特定领域仍存在知识偏差，信息不准确，泛化性差等问题。传统的检索增强生成方法也存缺乏语义理解导致上下文检索不准确，嵌入模型对文本向量的捕捉不到位，检索时间长且不擅长检索长文本和非结构化数据。本专利技术首先对嵌入模型结合设定好的超参数用专业数据集进行训练，并采用自适应上下文采样进行优化，训练嵌入模型的成本要远低于微调大语言模型，同时检索效果要好于其他检索增强生成结构，因此能有效降低成本，增加其信息检索的可行性。

4、(3)为了克服传统大语言模型与外部数据的交互能力低的问题，本专利技术使用llamaindex与语言链的交互模块且允许定义底层模型，这些模块提供了能将外部数据与大语言模型连接起来的中央接口，可以管理与语言模型的交互，将多种组件与资源链接在一起，极大的增强了模型与外界的交互性。

5、技术方案：为实现上述专利技术目的，本专利技术采用如下技术方案：

6、(1)从选定数据源中加载目标文件，并对其内容进行读取。接着，根据单词边界、句子终止符、段落分隔符、标点符号等，对文本深层结构和语义的理解，将文本内容分割成多个块，为后续处理提供结构化的输入。

7、(2)对基础嵌入模型word2vec进行超参数设置并训练，本专利技术所用基础嵌入模型使用两层神经网络学习单词映射，它的输入是一个文本语料库，输出是一组向量。通过嵌入单词可以使自然语言成为计算机可读的语言，然后可以对单词进行数学运算等操作来实现相似性检测。一组训练好的单词向量会将相似的单词在该空间中彼此靠近放置。本专利技术所用算法为acs-sg算法，在基础算法上进行优化，加入了上下文动态调整，根据每个单词的语境特征动态地调整上下文窗口的大小，根据单词的重要性和语境特征动态调整每个负例样本的采样概率，采用聚类辅助负采样与自适应的学习率调整的方法。动态负采样权重设置上下文窗口大小初始为10，向量维度为150，最小词频为10，负采样阈值为0.001，每个正样本对应10个负样本，进行200轮训练，得到优化好的acs-sg模型。

8、(3)acs-sg模型被训练好后，单词嵌入就从投影层中提取出来示，这些词嵌入模型可以捕获训练数据中词之间的语义关系。由投影层的大小确定的词嵌入的维度可以基于计算效率和语义表达力之间的期望权衡来选择。对于文本中的每一个词，嵌入模型都会给它一个向量，这个向量是在经过训练后学习到的，能够反映出该词的语义信息。对于每一个词该模型可以得到它的向量表示，单词嵌入可以用作各种下游自然语言处理任务的输入特征并用于测量单词相似性，聚类单词和其他语言分析。

9、(4)对于用户提出的问题，首先进行文本的预处理工作，如分词、去除停用词和词项小写转换等步骤。然后，使用词嵌入模型为问题中的每个词生成词向量。我们将每个词的词向量进行平均或加权平均处理，从而得到整个问题的向量表示，进而将问题映射到向量空间中。

10、(5)通过上面文本向量化，我们可以将一段文本转换成一串多维的数字，也就是数学上的向量，相似度计算就是计算两个向量之间的距离。这一步是信息检索的核心，通过融合余弦相似度、jaccard相似度和欧氏距离三种计算方法，并采用加权平均策略来优化信息检索过程，根据这些相似度指标的特点和在特定场景下的有效性，对它们进行加权平均，以获得一个综合的相似度评分。

11、(6)基于向量数据库进行相似度搜索后，得到了和询问问题最相关的信息，接着我们需要构造提示，对所有文本向量的综合相似度评分进行排序，选取最高分的前k个文本向量检索结果作为上下文，利用语言链组件提供的提示模板构造新的提示并传给大模型，让其解答。

12、(7)利用ragas框架进行评估，同时对比未经过处理的模型以及通过优化词嵌入方法调整过的模型的回答，对各项评分进行综合平均加权处理得到相关指标，通过相关指标判断模型给出的答案的准确性以及可行性。

13、有益效果：

14、本专利技术利用自适应上下文采样算法对嵌入模型进行了优化，提高了训练效率和模型。在训练过程中更好地考虑了每个词的上下文信息，因此对于稀疏数据集的处理能力更强。相比于其他嵌入模型，本专利技术优化后的模型能够更快地收敛，并在大规模数据集上实现高效的训练。反向传播算法可以有效地学习到每个单词的上下文表示，同时能够根据模型输出与实际标签之间的误差，逐层地调整模型参数，从而使得模型能够更好地理解单词之间的语义关系。自适应上下文采样算法可以有效地降低训练复杂度，并提高训练速度，通过引入上下文动态调整、动态负采样权重、聚类辅助负采样和自适应学习率调整等机制，模型可以更好地学习到词向量之间的相似性和差异性，能够更好地处理罕见词汇。

15、将优化好的嵌入模型用于检索增强生成时，可以带来多方面的优势。首先，优化的嵌入模型能够更好地捕捉词汇之间的语义关系，从而增强了大模型在生成式任务中的语义相关性和信息检索能力。优化的嵌入模型提供了更丰富的语言表本文档来自技高网...

【技术保护点】

1.基于优化词嵌入的检索增强生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于词嵌入的检索增强生成方法，其特征在于：所述步骤(1)具体为：a)加载目标文件：从数据源加载目标文件。b)读取文本内容：读取目标文件中的文本内容。c)按照特定规则分割：根据预定义的特定规则，将文本内容分割成多个文本块；这些规则包括但不限于单词边界、句子结束符、段落分隔符、标点符号，还包括对文本的深层次结构和语义的理解，以增强模型的文本理解能力。

3.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(2)具体为：

4.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(3)具体为：

5.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(4)具体为：对用户提出的问题进行文本清理和预处理，包括分词、去停用词、小写化等步骤，利用嵌入模型为每个词汇生成词嵌入向量并将问题中的每个词转换为其对应的词嵌入向量，对于整个问题，将每个词的词嵌入向量进行平均或加权平均，以获得整个句子的向量

6.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(5)具体为：用余弦相似度算法，Jaccard相似度算法，欧氏距离分别计算文本向量相似度与问题向量相似度，对每种相似度分数进行标准化处理，通过加权融合策略综合分数，得到最终的相似度评分，计算得到的相似度得分按照从高到低的顺序进行排序从中选取前k个。

7.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(6)具体为：基于向量数据库进行相似度搜索后，得到了和询问问题最相关的信息，接着我们需要构造提示，使用上一步中匹配到的前k条的向量的原始文本信息部分作为上下文，利用语言连组件提供的提示模板构造新的提示并传给大模型，让其解答。

8.根据利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(7)具体为：使用专业的检索增强方法评估架构RAGAS和经人工标注的数据集对使用了本专利技术所用的嵌入模型进行评估，同时对比未经过处理的模型以及通过检索增强生成方法调整过的模型的回答，判断模型给出的答案的准确性以及可行性。

...

【技术特征摘要】

1.基于优化词嵌入的检索增强生成方法，其特征在于：包括以下步骤：

3.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(2)具体为：

4.根据权利要求1所述的基于优化词嵌入的检索增强生成方法，其特征在于：所述步骤(3)具体为：

【专利技术属性】
技术研发人员：陈亚当，车洵，朱旻昊，徐睿，征煜，赵谦，刘帆，陈竞飞，顾欢欢，胡婕，寇怀振，王博洋，张嘉靓，
申请(专利权)人：江苏瑞智核信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人