System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于全文检索和大模型的法律监督线索挖掘方法及系统技术方案_技高网

基于全文检索和大模型的法律监督线索挖掘方法及系统技术方案

技术编号:43747976 阅读:2 留言:0更新日期:2024-12-20 13:06
本发明专利技术公开了一种基于全文检索和大模型的法律监督线索挖掘方法及系统,属于数据采集与数据检索和大模型应用领域,所述方法包括:S1.梳理监督规则和检索关键词;S2.全文检索,利用监督专题梳理的关键词和全文检索系统进行数据检索,从多种数据源收集指定时间段内所有相关的图文数据;S3.信息蒸馏和信息过滤;S4.构建专题分析的知识库;S5.知识库检索与排序;S6.大模型智能分析与线索挖掘。本发明专利技术通过设定关键词自动全文检索收集基础数据,再通过大模型的自动要素解析和对话推理分析,便能够从海量的数据中挖掘出有价值的法律监督线索,提高了基于图文电子数据的法律监督线索挖掘效率。

【技术实现步骤摘要】

本专利技术涉及数据采集与数据检索、图像识别、知识库和大模型应用,特别是涉及一种基于全文检索和大模型的法律监督线索挖掘方法及系统


技术介绍

1、近年来,随着信息化技术特别是人工智能大语言模型的飞速发展,为法律监督自动挖掘线索提供了可行的方向。2017年,google提出基于自注意力机制的神经网络结构——transformer架构,奠定了大模型预训练算法架构的基础。2018年,openai和google分别发布了gpt-1与bert大模型,预训练大模型成为自然语言处理领域的主流。2022年底,openai推出其拥有强大的自然语言交互与生成能力的chatgpt轰动全球,2023年,openai多模态预训练大模型gpt-4发布,其具备多模态理解与多类型内容生成能力。与此同时,国内的ai大模型也涌现出如文心一言、通义千问、讯飞星火、华为盘古等,大模型产业呈现蓬勃发展的态势,伴随多家科技厂商推出的ai 大模型落地商用,各类通用、行业以及端侧大模型已在多个领域取得了显著的成果,如在金融、医疗、政务等领域,ai 大模型已成为提升服务质量和效率的重要手段。大语言模型通过在海量无标注数据上进行大规模预训练,让模型学习大量知识并进行指令微调,从而具备了面向多种任务的通用求解能力,ai技术的发展已经由大语言模型相关技术引领。

2、但在实际法律监督工作中,并未与信息化技术特别是人工智能大语言模型关联起来,依然采用传统的工作方法,只能使用人工一份份翻看业务文书,工作量大,效率低下还不准确,对文书数据的利用却又较为困难。


技术实现思路

1、本专利技术的目的在于克服现有技术的不足,提供一种基于全文检索和大模型的法律监督线索挖掘方法及系统,从业人员不需要逐份翻阅各类案件的内外部文书或卷宗材料,通过设定关键词自动全文检索收集基础数据,再通过大模型的自动要素解析和对话推理分析,便可从海量的数据中挖掘出有价值的法律监督线索。

2、本专利技术的目的是通过以下技术方案来实现的:基于全文检索和大模型的法律监督线索挖掘方法,包括以下步骤:

3、s1.梳理监督规则和检索关键词:基于法律监督专题进行任务拆解,梳理监督规则和全文检索的关键词;

4、s101.将法律监督问题进行专题分类,包括立案监督、侦查活动监督、裁判监督和执行监督;

5、s102.针对不同类型的法律监督问题,梳理是否区分案由,需要区分案由的法律监督问题根据不同案由类型梳理监督规则,不需要区分案由的法律监督问题梳理通用的监督规则;

6、s103.根据s102梳理的不同监督规则分别梳理需要检索的文书类型和关键词。

7、s2.全文检索:利用监督专题梳理的关键词和全文检索系统进行数据检索,从多种数据源收集指定时间段内所有相关的图文数据;

8、s201.获取全文检索系统的采集器的信息,配置数据源(文件路径和数据库地址)、图像识别服务、分词器,配置专业词库;

9、s202.根据不同监督类型和案由配置检索关键词和时间范围,开启数据采集,过解析采集sql,从而组装成flink任务,对结构化数据进行采集;

10、s203.利用图像识别服务结合关键词对图像数据进行检索和采集;

11、s204.将采集的数据批量保存到elasticsearch中,再进行下一批次数据采集操作,直到采集的数据为空为止。

12、s3.信息蒸馏和信息过滤:利用大模型对收集的数据进行内容摘要、要素解析和信息过滤;

13、s301.对s2采集的文本数据,利用大模型逐份进行解析和内容摘要,建立标题-摘要-段落三层索引;

14、s302.对s2采集的文本数据,指定类型的文书利用大模型解析关键信息并结构化,所述关键信息包括法律文书中的涉案人员信息、事实要素、案件情节,然后存入数据库,解析涉案人员信息和涉案人员关系存入知识图谱,为法律监督线索挖掘需要进行的文书比对和人员关系挖掘提供数据源;

15、s303.对s2采集的图像数据,利用ocr和图像识别技术,识别图像里的文字内容,然后采用s302步骤利用大模型对文字内容并进行摘要和结构化,同时对图像中的类似指纹、印章、签名等关键证据要素进行识别和标记;

16、s304.对上述步骤s302、s303步骤解析和标记的数据建立筛选规则并进行信息过滤,筛选出需要分析的案件数据;

17、s4.构建专题分析的知识库:利用上一步大模型摘要和结构化解析后的数据,构建分层索引的向量知识库、结构化数据知识库和图数据知识库;

18、s401.基于s3所有步骤获取到的数据,构建案件-文书-人物-要素的多层次关联关系表;

19、s402.针对s301步骤处理完成的文本和摘要数据,利用ebemding词嵌入模型分别构建标题-摘要-段落三层索引的向量数据库;

20、s403.针对s303、s304步骤处理得到的结构化数据和图谱数据,存入相应的数据库,并构建查询sql和图数据库查询语言模板。

21、s5.知识库检索与排序:基于向量知识库、结构化数据知识库和图数据知识库,采用向量相似度检索、结构化查询和知识图谱搜索相结合的方法进行联合检索,并利用相似度值阈值取出前n条数据,再利用重排模型对对检索到的数据进行排序筛选;

22、s501.根据步骤s102梳理的需要结合文书分析的法律监督规则,梳理出向量库检索的语句,所述检索语句即需要查找目标数据的自然语言;例如:“找出所有具有某某情节的裁判文书”;

23、s502.将s501步骤构建的向量库检索语句利用embedding词嵌入模型向量化,为提高检索的召回率还可将检索问题利用大模型生成预设答案再向量化,然后利用知库的向量相似度检索器进行检索,知识库检索器将根据上述s402步骤建立的三层索引进行“文书-段落-关键词”逐层根据向量相似度检索,设置返回最大个数或相似度阈值,找到符合条件的目标数据;

24、s503.利用重排模型bge-reranker-large对上一步s502检索到的数据进行排序,取与目标问题最相关的前n条数据;

25、s504.根据s102梳理的需要结合结构化数据分析的法律监督规则,构建关系数据库和图数据库查询规则,例如审判监督的分析专题,需要检索起诉和审判阶段认定事实、情节、适用法律不一致的案件,将利用查询模板语句从s403步骤构建的数据库中检索出所有满足条件的案件数据;

26、s505.将s503、s504检索到的符合条件的数据利用s401的关联表进行整合存储。

27、s6.大模型智能分析与线索挖掘:构建大模型交互对话的分析决策树,对上一步检索到的数据利用大模型逐个进行分析并得出结论,并对发现监督线索的数据进行标记和输出。

28、s601.针对上述s5梳理得到数据还需要进一步分析和过滤的法律监督类型,根据不同的情形梳理不同的大模型的对话分析决策树:

本文档来自技高网...

【技术保护点】

1.基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤S1包括:

3.根据权利要求2所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤S2包括:

4.根据权利要求3所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤S3包括:

5.根据权利要求4所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤S4包括:

6.根据权利要求5所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤S5包括:

7.根据权利要求1所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤S6包括:

8.基于全文检索和大模型的法律监督线索挖掘系统,采用权利要求1~7中任意一项所述的方法,其特征在于:包括数据检索模块、数据解析模块、数据存储模块、规则配置模块和大模型分析推理模块;

9.根据权利要求8所述的基于全文检索和大模型的法律监督线索挖掘系统,其特征在于:所述法律监督线索挖掘系统还包括后台管理模块:

...

【技术特征摘要】

1.基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤s1包括:

3.根据权利要求2所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤s2包括:

4.根据权利要求3所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤s3包括:

5.根据权利要求4所述的基于全文检索和大模型的法律监督线索挖掘方法,其特征在于:所述步骤s4包括:

6....

【专利技术属性】
技术研发人员:方卫洪张兵黄尚强郑佳勇陈曦席力凡陈泉吉
申请(专利权)人:同方赛威讯信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1