System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型和小模型协作的实体匹配方法及装置制造方法及图纸_技高网

基于大语言模型和小模型协作的实体匹配方法及装置制造方法及图纸

技术编号:44690525 阅读:16 留言:0更新日期:2025-03-19 20:38
本申请公开了一种基于大语言模型和小模型协作的实体匹配方法及装置,涉及实体匹配技术领域,所述方法包括获取若干待匹配实体对,其中,待匹配实体对中每个待匹配实体包括多对键值对;将每对待匹配实体对输入预设的第一小模型,基于第一小模型对每对待匹配实体对进行键值对筛选,获得若干对应的待匹配精简实体对;将每对待匹配精简实体对输入预设的第二小模型,基于第二小模型进行相似实体检索,获得若干与每对待匹配精简实体对对应相似的演示实体对;将每对待匹配精简实体对与对应的演示实体对输入预设的大语言模型,获得实体匹配结果。本申请具有提升大数据集的实体匹配的准确性和效率的效果。

【技术实现步骤摘要】

本申请涉及实体匹配,尤其涉及一种基于大语言模型和小模型协作的实体匹配方法及装置


技术介绍

1、在大数据时代,数据集成的重要性日益凸显,实体匹配作为其核心任务之一,面临诸多挑战。

2、相关技术中,deepmatcher(深度匹配器)使用各种深度学习模型作为编码器,构建了一个端到端的实体匹配模型,在非结构化数据上显示出更大的鲁棒性,但是在准确性上还有提升空间;ditto开源预训练模型使用大量专家知识和手动标注方法进行数据增强,并将数据作为序列输入bert(bidirectional encoder representations fromtransformers,基于transformer模型架构的深度双向学习模型),然后通过全连接层分类器分析文本相似性,这提高了实体匹配在所有数据集中的准确性,然而,由于这种方法通过拼接输入数据到bert模型,输入规模和时间复杂度都较高;hiergat(基于hhg的层次图注意变换模型)通过构建一个图结构来显式地建模记录对之间的关联关系,在这个图中,节点代表记录对,边代表记录对之间的关联强度,通过图注意力机制,hiergat能够有效地捕捉图中的结构信息,从而在做出匹配决策时考虑到其他相关记录对的影响,这种方法依赖于图的构建,以至于难以应用在大规模数据集上。


技术实现思路

1、本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种基于大语言模型和小模型协作的实体匹配方法及装置,旨在提升大数据集的实体匹配的准确性和效率。

2、第一方面,本申请实施例提供一种基于大语言模型和小模型协作的实体匹配方法,包括:

3、获取若干待匹配实体对,其中,所述待匹配实体对中每个所述待匹配实体包括多对键值对;

4、将每对所述待匹配实体对输入预设的第一小模型,基于所述第一小模型对每对所述待匹配实体对进行键值对筛选,获得若干对应的待匹配精简实体对;

5、将每对所述待匹配精简实体对输入预设的第二小模型,基于所述第二小模型进行相似实体检索,获得若干与每对所述待匹配精简实体对对应相似的演示实体对,所述第二小模型中预设有多对候选的演示实体对,所述演示实体对用于提示所述大语言模型;

6、将每对所述待匹配精简实体对与对应的所述演示实体对输入预设的大语言模型,获得实体匹配结果。

7、根据本申请实施例的技术方案,至少具有如下有益效果:待匹配实体对是指待进行实体匹配的两个实体,每个实体包括多对键值对,也即每个实体可以由多个键值对组成;在实际应用中,大规模数据集中通常包括大量待匹配的实体,即大规模数据集中包含的键值对数量是非常多的,某些键值对是决定实体是否匹配的重要因素,而某些键值对则可能属于无关噪音,面对海量数据和复杂场景,直接基于完整实体进行匹配往往效率低下且可能引入噪声;因此,通过第一小模型先行进行键值对选择,利用其轻量级特性快速过滤无关键值对,提炼出对实体匹配最具指示性的键值对子集,以此显著减小输入复杂度,从而减轻后续大语言模型的计算负担,提升处理速度,使实体匹配过程更加高效,有利于在有限资源下处理大规模数据集,同时,通过识别并保留那些对匹配决策贡献最大的键值对,有助于消除输入实体对的噪声信息,使得模型更加专注于关键信息,从而提升预测准确性和泛化能力,尤其是在数据质量参差不齐或存在大量无关信息的场景下;随后,再通过第二小模型找到一个与待匹配精简实体对对应相似的演示实体对,演示实体对用于提示大语言模型,也即演示实体对与待匹配精简实体对结合能够提供一个正确的实体匹配示例,以实现对大语言模型的有效启发,帮助大语言模型更准确地理解实体匹配任务,从而得到预期的结果,提升大数据集的实体匹配的准确性。

8、根据本申请的一些实施例,所述将每对所述待匹配实体对输入预设的第一小模型,基于所述第一小模型对每对所述待匹配实体对进行键值对筛选,获得若干对应的待匹配精简实体对,包括:

9、将每对所述待匹配实体对输入预设的第一小模型,基于所述第一小模型对每对所述待匹配实体对中的每个所述待匹配实体进行键值对枚举,获得对应每个所述待匹配实体的多个待筛选键值对子集;

10、对每个所述待匹配实体的多个所述待筛选键值对子集进行筛选,获得对应每个所述待匹配实体的精简键值对;

11、基于对应每个所述待匹配实体的所述精简键值对,获得若干待匹配精简实体对。

12、根据本申请的一些实施例,所述第一小模型通过以下方式进行训练优化:

13、从预设的两个不同的数据库中分别获取不同的预设实体,得到预设实体对;

14、对所述预设实体对中的每个所述预设实体进行键值对筛选,获得对应所述预设实体对的精简实体对;

15、对所述预设实体对进行编码,获得第一嵌入,对所述精简实体对进行编码,获得第二嵌入;

16、根据所述第一嵌入计算两个所述预设实体之间的第一匹配概率,根据所述第二嵌入计算两个所述精简实体之间的第二匹配概率;

17、基于所述第一匹配概率和所述第二匹配概率,计算所述第一小模型的损失值;

18、结合所述第一小模型的损失值,通过预设的深度学习优化算法优化所述第一小模型。

19、根据本申请的一些实施例,所述根据所述第二嵌入计算两个所述精简实体之间的第二匹配概率,包括:

20、基于所述精简实体对进行数值特征编码,获得第二特征向量;

21、聚合所述第一嵌入、所述第二嵌入和所述第二特征向量,获得模型综合表示信息;

22、基于所述模型综合表示信息,计算两个所述精简实体之间的第二匹配概率。

23、根据本申请的一些实施例,所述将每对所述待匹配精简实体对输入预设的第二小模型,基于所述第二小模型进行相似实体检索,获得若干与每对所述待匹配精简实体对对应相似的演示实体对,包括:

24、将每对所述待匹配精简实体对输入预设的第二小模型,基于所述第二小模型进行预检索,获得多对预演示实体对,其中,一对所述待匹配精简实体对与多对所述预演示实体对对应相似;

25、对所有所述待匹配精简实体对进行编码,获得若干待匹配精简嵌入,对所有所述预演示实体对进行编码,获得多个预演示嵌入,其中,一个所述待匹配精简嵌入与多个所述预演示嵌入具有对应相似关系,每个所述待匹配精简嵌入均有多个具有对应相似关系的所述预演示嵌入;

26、将每个所述待匹配精简嵌入分别与具有对应相似关系的所有所述预演示嵌入进行对比,提取与所述待匹配精简嵌入对比相似度最高的所述预演示嵌入对应的所述预演示实体对,获得若干与每对所述待匹配精简实体对对应相似的演示实体对。

27、根据本申请的一些实施例,所述对所有所述待匹配精简实体对进行编码,获得若干待匹配精简嵌入,对所有所述预演示实体对进行编码,获得多个预演示嵌入,包括:

28、对所有所述待匹配精简实体对进行第一层文本编码,获得若干第一待匹配精简嵌入,对所有所述预演示实体对进行第一层文本本文档来自技高网...

【技术保护点】

1.一种基于大语言模型和小模型协作的实体匹配方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述将每对所述待匹配实体对输入预设的第一小模型,基于所述第一小模型对每对所述待匹配实体对进行键值对筛选,获得若干对应的待匹配精简实体对,包括:

3.根据权利要求1所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述第一小模型通过以下方式进行训练优化:

4.根据权利要求3所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述根据所述第二嵌入计算两个所述精简实体之间的第二匹配概率,包括:

5.根据权利要求1所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述将每对所述待匹配精简实体对输入预设的第二小模型,基于所述第二小模型进行相似实体检索,获得若干与每对所述待匹配精简实体对对应相似的演示实体对,包括:

6.根据权利要求5所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述对所有所述待匹配精简实体对进行编码,获得若干待匹配精简嵌入,对所有所述预演示实体对进行编码,获得多个预演示嵌入,包括:

7.根据权利要求5所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述将每个所述待匹配精简嵌入分别与具有对应相似关系的所有所述预演示嵌入进行对比,提取与所述待匹配精简嵌入对比相似度最高的所述预演示嵌入对应的所述预演示实体对,获得若干与每对所述待匹配精简实体对对应相似的演示实体对,包括:

8.一种运行控制装置,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1至7任一项所述的基于大语言模型和小模型协作的实体匹配方法。

9.一种电子设备,其特征在于,包括权利要求8所述的运行控制装置。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于大语言模型和小模型协作的实体匹配方法。

...

【技术特征摘要】

1.一种基于大语言模型和小模型协作的实体匹配方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述将每对所述待匹配实体对输入预设的第一小模型,基于所述第一小模型对每对所述待匹配实体对进行键值对筛选,获得若干对应的待匹配精简实体对,包括:

3.根据权利要求1所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述第一小模型通过以下方式进行训练优化:

4.根据权利要求3所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述根据所述第二嵌入计算两个所述精简实体之间的第二匹配概率,包括:

5.根据权利要求1所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述将每对所述待匹配精简实体对输入预设的第二小模型,基于所述第二小模型进行相似实体检索,获得若干与每对所述待匹配精简实体对对应相似的演示实体对,包括:

6.根据权利要求5所述的基于大语言模型和小模型协作的实体匹配方法,其特征在于,所述对所...

【专利技术属性】
技术研发人员:余彦可李进孙莹
申请(专利权)人:香港科技大学广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1