System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语义理解的个性化识别配置方法技术_技高网

一种基于语义理解的个性化识别配置方法技术

技术编号:43357250 阅读:6 留言:0更新日期:2024-11-19 17:43
本发明专利技术涉及一种基于语义理解的个性化识别配置方法,包括以下步骤:S1:从资料文件中获取文本;S2:使用大型通用语言模型BGE M3‑Embedding对文本进行特征表示,并与以相同方式构建的个性化配置特征库中的每套配置特征进行拼接融合,拼接融合后的特征向量将作为文本和每套配置的特征表示;S3:将上述特征向量,放入模型中进行相似度计算,获得该文本和每套配置的相似分数,将最相似的配置作为该文件所属的个性化配置;S4:进行后处理重排,将最高几项分数的个性化组合进行规则计算,重新调整每个结果组合的分数,并获得最佳配置类别。本发明专利技术具有准确率高,泛化性强,处理效率稳定的优点。

【技术实现步骤摘要】

本专利技术涉及自动化信息处理,特别是涉及一种基于语义理解的个性化识别配置方法


技术介绍

1、随着全球经济一体化进程的加快,国际贸易的蓬勃发展使得物流行业日益重要和复杂,在这一过程中,报关作为进出口贸易中必不可少的一环,起着至关重要的作用,高效的报关流程不仅能加速货物流通,还能降低企业运营成本,提升国际竞争力。

2、然而,传统的报关流程繁琐耗时,仍然存在纸质文件仍然普遍使用,信息传递速度慢,各部门之间的信息无法完全共享等问题;此外,报关工作对专业性的要求较高,但市场上专业人才相对匮乏,企业在招聘和培训方面面临困难;随着人工智能和大数据技术的快速发展,自动化和智能化开始在报关行业崭露头角。然而,大多数公司在资料转型方面不彻底,存在纸质与电子版并存的情况,同时,大多数情况下,不同的报关企业资料格式各不相同,同一企业的报关资料也形式各异,很难在保证高准确率的前提下做成统一的一套智能化资料识别自动报关系统,给智能化在报关行业的实施带来了巨大挑战。


技术实现思路

1、针对上述现有技术的不足,本专利申请所要解决的技术问题是如何提供一种准确率高,泛化性强,处理效率稳定的基于语义理解的个性化识别配置方法。

2、为了解决上述技术问题,本专利技术采用了如下的技术方案:

3、一种基于语义理解的个性化识别配置方法,包括以下步骤:s1:从资料文件中获取文本;s2:使用大型通用语言模型bge m3-embedding对文本进行特征表示,并与以相同方式构建的个性化配置特征库中的每套配置特征进行拼接融合,拼接融合后的特征向量将作为文本和每套配置的特征表示;s3:将上述特征向量,放入模型中进行相似度计算,获得该文本和每套配置的相似分数,将最相似的配置作为该文件所属的个性化配置;s4:进行后处理重排,将最高几项分数的个性化组合进行规则计算,重新调整每个结果组合的分数,并获得最佳配置类别;

4、作为优化,步骤s1中,获取文本的方式包括但不限于直接获取、ocr技术获取。

5、作为优化,步骤s2中,对文本进行特征表示时,bge m3-embedding模型通过双向编码器、多层结构以及预训练和微调技术,生成文本嵌入表示,能够实现捕捉文本的语义信息。

6、作为优化,步骤s2中,个性化配置特征库是由每个个性化配置的特征向量构建而成;利用已收集的数据集,将每套配置类别中文件的文本特征表示融合在一起作为该套个性化配置的特征向量。

7、作为优化,步骤s2中,将文本特征表示和每套个性化配置的特征向量拼接融合为长度为2048的特征向量,作为该组合整体的特征向量输入到模型中进行相似性计算。

8、作为优化,步骤s3中进行相似度计算的模型是使用三层神经网络来搭建相似度模型。

9、作为优化,步骤s3中,进行相似度计算时,将得到的文本和n个配置分别进行融合构成n×2048特征向量输入到相似度模型中,经过层层映射变化得到n×1的特征向量,代表最终每个配置和文本的相似性分数,采用如下公式:

10、yn×512=fsigmoid(frelu(frelu(xn×2048w2048×1024+b1)w1024×512+b2)w512×1+b3)

11、将数据集以7:3的比例进行划分,在训练集上进行20轮训练得到最后结果。

12、作为优化,步骤s4中进行后处理重排时,依据个性化配置的信息是否和文件相匹配;配置的个性化处理信息存储在配置数据库中,配置数据库中包含需要提取的关键词,以及其正则匹配方法,通过统计匹配个数和设定的阈值来对相似性分数进行调整。

13、本专利技术具有以下效果:

14、本专利技术通过对复杂文件进行文本处理、特征构建、相似度计算和个性化配置重排,为每套资料匹配其独有的个性化配置,解决了报关资料形式多样带来的识别难题。

15、(1)在文本处理阶段,系统通过直接提取并处理文件中的文本内容,利用tf-idf方法对长文本进行了有效的缩短处理,大大提高了处理效率;

16、(2)在特征构建阶段,系统引入了先进的bge m3-embedding模型,通过该模型生成高质量的文本嵌入表示,使得系统能够处理混合语言和复杂结构的文本数据,通过将文本特征向量与配置类别特征向量进行拼接和融合,系统得到了能够充分表征文本和配置类别关系的特征向量;

17、(3)随后通过训练模型计算文本与每套配置之间的相似度,取得了约96.7%的准确率;

18、(4)为了增强对结果的控制,提高系统的可维护性,本文还设计了个性化配置重排模块,通过对相似度分数进行调整和优化,进一步提高了识别结果的置信度,最终准确率达到了98%。

19、综上所述,基于语义的个性化识别配置系统在复杂报关资料的个性化处理方面取得了显著成果,随着系统的持续优化与完善,其在实际应用中可进一步提升处理效率和准确性,从而助力企业在国际贸易中巩固并增强竞争优势。

本文档来自技高网...

【技术保护点】

1.一种基于语义理解的个性化识别配置方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S1中,获取文本的方式包括但不限于直接获取、OCR技术获取。

3.根据权利要求2所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S2中,对文本进行特征表示时,BGE M3-Embedding模型通过双向编码器、多层结构以及预训练和微调技术,生成文本嵌入表示,能够实现捕捉文本的语义信息。

4.根据权利要求3所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S2中,个性化配置特征库是由每个个性化配置的特征向量构建而成;利用已收集的数据集,将每套配置类别中文件的文本特征表示融合在一起作为该套个性化配置的特征向量。

5.根据权利要求4所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S2中,将文本特征表示和每套个性化配置的特征向量拼接融合为长度为2048的特征向量,作为该组合整体的特征向量输入到模型中进行相似性计算。

6.根据权利要求5所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S3中进行相似度计算的模型是使用三层神经网络来搭建相似度模型。

7.根据权利要求6所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S3中,进行相似度计算时,将得到的文本和n个配置分别进行融合构成n×2048特征向量输入到相似度模型中,经过层层映射变化得到n×1的特征向量,代表最终每个配置和文本的相似性分数,采用如下公式:

8.根据权利要求6所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤S4中进行后处理重排时,依据个性化配置的信息是否和文件相匹配;配置的个性化处理信息存储在配置数据库中,配置数据库中包含需要提取的关键词,以及其正则匹配方法,通过统计匹配个数和设定的阈值来对相似性分数进行调整。

...

【技术特征摘要】

1.一种基于语义理解的个性化识别配置方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤s1中,获取文本的方式包括但不限于直接获取、ocr技术获取。

3.根据权利要求2所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤s2中,对文本进行特征表示时,bge m3-embedding模型通过双向编码器、多层结构以及预训练和微调技术,生成文本嵌入表示,能够实现捕捉文本的语义信息。

4.根据权利要求3所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤s2中,个性化配置特征库是由每个个性化配置的特征向量构建而成;利用已收集的数据集,将每套配置类别中文件的文本特征表示融合在一起作为该套个性化配置的特征向量。

5.根据权利要求4所述的一种基于语义理解的个性化识别配置方法,其特征在于,步骤s2中,将文本特征表示和每套个性...

【专利技术属性】
技术研发人员:涂宇果杨亚淇敖建松李凯鲜宸皓田成林
申请(专利权)人:重庆超体科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1