System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据检索,特别是涉及一种基于大模型的航空多领域数据自适应提取方法及系统。
技术介绍
1、在航空知识服务平台使用过程中,用户的一个重点需求就是对多类型的航空数据进行检索与使用。由于用户的查询目的和查询数据类型不同,传统检索方式使用的固定检索语句与权重很难满足用户的检索体验与需求。问题主要包括以下几个方面:
2、(1)用户检索过程中,需要手动选择特定领域进行检索,智能程度较低;
3、(2)固定的检索语句与检索字段权重与用户的检索目的不一致导致检索结果偏离用户预期;
4、(3)传统关键词检索仅关注字符匹配,忽略了语义信息导致检索结果不准确。
技术实现思路
1、本专利技术的目的在于提供一种基于大模型的航空多领域数据自适应提取方法及系统,将检索内容与文本信息进行语义特征提取与比对,同时将关键词提取和语义提取结果进行融合排序,保证提取的丰富性与排序的准确度。
2、一种基于大模型的航空多领域数据自适应提取方法,其包括:
3、获取航空领域多领域数据集,并对所述航空领域多源数据集进行预处理,得到预处理数据集;
4、基于所述预处理数据集构建若干个倒排索引表;每个所述倒排索引表对应一个领域;所述倒排索引表包括json键值对和若干个语素,每个所述语素对应所述预处理数据集中的一个文本;所述json键值对包括索引名称、索引数据内容和用途;
5、将所述预处理数据集中的若干个文本拆分为句子,并基于大模型对各句子进行划
6、将所述预处理数据集中的若干个文本的段落作为第二训练集,并基于大模型对所述预处理数据集中的若干个文本的段落进行提问,得到长短文本标注数据集;
7、将所述长短文本标注数据集作为标签集并结合所述第二训练集对初始训练好的所述bge模型进行有监督训练,得到训练好的所述bge模型;
8、基于训练好的所述bge模型将所述预处理数据集中各文本的各段落进行语义特征提取,得到语义特征向量库;
9、基于训练好的所述bge模型对用户输入的文本进行语义特征提取,得到输入特征向量;
10、基于大模型对所述输入特征向量与所述语义特征向量库中的各语义特征向量进行余弦相似度计算,得到初始余弦相似度集合;
11、基于各所述倒排索引表的json键值对,采用大模型对用户输入的文本进行分析,得到需求倒排索引表;所述需求倒排索引表为用户输入的文本对应的领域所对应的倒排索引表;
12、基于所述需求倒排索引表中的各语素,采用大模型根据用户输入的文本形成查询语句和所述查询语句中各查询字段的权重;
13、基于大模型和所述查询语句中各查询字段的权重,对所述查询语句与所述需求倒排索引表中的各语素进行相似度计算,得到语素相似度集合;并将所述语素相似度集合进行归一化处理,得到初始归一化值集合;
14、若所述初始归一化值集合中归一化值与所述初始余弦相似度集合中余弦相似度对应所述预处理数据集中同一个文本,将此文本作为当前文本,将当前文本对应的所述归一化值和所述余弦相似度对进行加权求和,得到融合值,并从所述初始余弦相似度集合中删除当前文本所对应的所述余弦相似度,从所述初始归一化值集合中删除当前文本所对应的所述归一化值,遍历所述初始归一化值集合和所述初始余弦相似度集合,得到归一化值集合、余弦相似度集合和融合值集合;所述融合值集合包括若干个所述融合值;
15、对所述融合值集合中各所述融合值、所述归一化值集合中各所述归一化值和所述余弦相似度集合中各所述余弦相似度按照从大到小进行排序并根据需求数量给出对应的文本作为提取结果。
16、可选地,所述基于所述预处理数据集构建倒排索引表,包括:
17、在空军航空工程词典、商用飞机专业术语词典、中国航空百科词典和航空标准中抽取航空领域相关术语,得到术语词表;
18、根据所述术语词表和搜索引擎自带的词表对所述预处理数据集进行词语拆分,得到若干个语素;
19、将所述语素作为key值,将所述语素对应的文本作为value值构建键值对,得到所述倒排索引表。
20、可选地,所述余弦相似度表达式为:
21、
22、式中:a为输入特征向量,b为语义特征向量,n为特征向量的维度,ai为输入特征向量的第i维的值,bi表示语义特征向量的第i维的值,sim cosab表示输入特征向量与语义特征向量之间的余弦相似度。
23、可选地,所述语素相似度表达式为:
24、
25、
26、式中:wi表示查询语句,wj表示需求倒排索引表中的第j个语素,j=[1,,2,…,n],n为需求倒排索引表中语素的总数量,n为查询语句中查询字段的总数量,wik表示查询语句中第k个查询字段,idf(wik)表示wik的权重,f(wik,wj)表示表示wj中wik出现的数量,k1为第一调节因子,b为第二调节因子,|wj|表示wj对应的文本的长度,avgdl表示需求倒排索引表中所有文本的平均长度。
27、可选地,所述融合值表达式为:
28、scorefinal=w*sigmoid(scorebm25,c,a)+d*scorecosine;
29、
30、式中:scorefinal表示融合值,w为归一化值的权重,d表示余弦相似度的权重,c为simoid函数的第一参数,a为simoid函数的第二参数,scorecosine为余弦相似度,scorebm25为语素相似度,sigmoid(scorebm25,c,a)表示语素相似度的归一化值。
31、可选地,无监督训练和有监督训练过程中损失函数为:
32、
33、式中:f为损失函数值,p和q代表文本对,是负样本,τ是bge模型温度系数,ep是p的特征向量,eq是q的特征向量,是的特征向量,∑(p,q)是所有文本对损失函数值之和,min·σ(p,q)是所有文本对损失函数值之和的最小值。
34、可选地,所述大模型为qwen2.5-72b。
35、本专利技术还提供了一种基于大模型的航空多源数据自适应提取系统,其包括:
36、数据获取处理模块,用于获取航空领域多领域数据集,并对所述航空领域多源数据集进行预处理,得到预处理数据集;
37、索引表模块,用于基于所述预处理数据集构建若干个倒排索引表;每个所述倒排索引表对应一个领域;所述倒排索引表包括json键值对和若干个语素,每个所述语素对应所述预处理数据集中的一个文本;所述json键值对包括索引名称、索引数据内容和用途;
38、第一训练模块,用于将所述预处理数据集中的若干个文本拆分为句子,并基于大模型对各句子进行划分,得到第一训练集,基于所述第一训练集对bge模型进本文档来自技高网...
【技术保护点】
1.一种基于大模型的航空多领域数据自适应提取方法,其特征在于,其包括:
2.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述基于所述预处理数据集构建倒排索引表,包括:
3.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述余弦相似度表达式为:
4.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述语素相似度表达式为:
5.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述融合值表达式为:
6.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,无监督训练和有监督训练过程中损失函数为:
7.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述大模型为Qwen2.5-72B。
8.一种基于大模型的航空多源数据自适应提取系统,其特征在于,其包括:
【技术特征摘要】
1.一种基于大模型的航空多领域数据自适应提取方法,其特征在于,其包括:
2.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述基于所述预处理数据集构建倒排索引表,包括:
3.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述余弦相似度表达式为:
4.根据权利要求1所述的基于大模型的航空多源数据自适应提取方法,其特征在于,所述语素相似度表达式为:
...【专利技术属性】
技术研发人员:卓雨东,何柳,刘俊,王浩东,孙郁文,刘姝妍,裴育,曾江辉,王孝天,王少枫,潘娅云,安然,武铎,
申请(专利权)人:中国航空综合技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。