System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机软件与财政数据分析,主要涉及一种基于大语言模型的财政领域智能数据分析平台。
技术介绍
1、财政领域涉及的数据种类繁多,包括预算、支出、收入、财政指标等,随着大数据和人工智能技术的发展,政府和企业对智能化数据分析的需求不断增加。但财政领域数据量大、结构复杂的特点使得传统的数据分析难以有效处理和提取有用信息。
2、例如cn109062874b的中国专利中公开了一种财政数据的获取方法、终端设备及介质,该方法包括:获取预先发布的待分析文本;通过预设的文本转换工具,将所述待分析文本的文本格式由pdf格式转换为文档doc格式;基于doc格式的待分析文本,获取待分析文本所对应的文本编码;文本编码包含多种类型的页面标签;查找页面标签中的表格标签,并根据表格标签所属的文本位置,定位待分析文本中所存在的表格;提取与表格关联的各个字段值以及表格描述信息;将表格描述信息以及每一字段值输出至预先创建的文本文档,以使业务系统对文本文档进行识别处理后,获取待分析文本所关联的财政数据。降低了企业财政数据的获取难度,达到了财政数据的多维度获取效果。但上述专利技术用户输入处理不够精细,可能导致意图识别不准确;问题分类和检索策略较为简单,可能无法全面满足复杂查询需求;数据处理和展示缺乏标准化,影响数据一致性和展示效果;数据质量管理不够全面,可能存在数据不一致和质量问题。
3、因此亟需一种具备更为全面和准确的财政数据分析服务的财政领域智能数据分析平台。
技术实现思路
1、为了解
2、本申请的技术方案如下:
3、一种基于大语言模型的财政领域智能数据分析平台,所述平台包括用户输入处理层、核心分析引擎、数据处理层和结果展示层,其中:
4、所述用户输入处理层用于对用户的自然语言输入数据进行初步处理,获得初步处理后的输入数据;
5、所述核心分析引擎包括问题分类模块、混合检索知识库查询模块、意图识别模块和json校准模块,所述问题分类模块利用问题分类模型对初步处理后的输入数据进行问题分类和关键词提取,获得问题类型标签和关键词;所述混合检索知识库查询模块基于向量检索和关键词检索相结合的混合检索策略,利用初步处理后的输入数据、问题类型标签和关键词获得查询结果,所述查询结果具体为财政指标的详细描述,包括定义、计算方法、适用范围和政策依据;所述意图识别模块通过对初步处理后的输入数据进行自然语言处理、结合查询结果为额外上下文的意图分析和需求映射,获得用户需求财政指标数据的json结构,包含财政指标、分析维度、时间范围和地域范围;所述json校准模块用于对用户需求财政指标数据的json结构作进行规范化处理,获得规范化的财政数据请求结构;
6、所述数据处理层通过api获得规范化的财政数据请求结构,并输出标准化的财政指标数据集,包括指标值、相关元数据和质量标记;
7、所述结果展示层用于将财政指标数据集通过文本描述、表格和统计图表形式予以展示。
8、优选的,所述初步处理包括将用户的自然语言输入数据分割成单词或词组,并移除预设的对分析无用的常见词,标记移除后剩余每个词的词性。
9、优选的,问题分类模型为基于transformer架构的大语言模型,包括共享编码器、分类头和提取头,其中,将初步处理后的输入数据作为共享编码器的输入,所述共享编码器通过自注意力机制捕捉输入数据中的上下文信息,输出对应的特征表示,将所述特征表示作为分类头和提取头的输入,输出问题类型标签和关键词;
10、用财政领域数据库对大语言模型进行预训练,并在预训练过程中利用专家预先标注的财政样本数据进行额外训练,获得训练完成的问题分类模型。
11、优选的,混合检索策略中的向量检索包括文本嵌入和近似最近邻检索,具体为:
12、所述文本嵌入使用使用embedding模型捕捉初步处理后的输入数据的语义信息获得高维向量,所述embedding模型为bert模型或word2vec模型;使用hnsw或ivf算法对高维向量进行近似最近邻搜索,获得初步相关记录,根据初步处理后的输入数据对应问题类型标签对所述初步相关记录加权,并剔除与问题类型标签无关的初步相关记录,获得向量检索相关记录数据集。
13、优选的,混合检索策略中的关键词检索利用倒排索引技术和同义词扩展进行精确匹配和模糊匹配,具体为建立包含关键词的索引,识别关键词的同义词并进行拓展,使用扩展后的关键词在倒排索引中进行检索,获得关键词检索数据集。
14、优选的,混合检索策略还包括将向量检索相关记录数据集和关键词检索数据集进行初步合并,获得合并数据集,使用rerank模型对合并数据集进行排序,所述rerank模型基于向量相似度和关键词匹配程度,综合评分并排序,获得查询结果。
15、优选的,获得用户需求财政指标数据的json结构具体步骤为:
16、使用命名实体识别技术识别初步处理后的输入数据的重要实体,使用预定义的规则和模式识别重要实体之间的关系,获得自然语言处理后的数据;
17、对自然语言处理后的数据进行深入分析,具体为在自然语言处理后的数据的基础上将查询结果作为额外结合上下文信息进行理解,通过开源大语言模型的推理能力,从自然语言处理后的数据中识别出关键要素,并推断用户想要的数据类型和请求方式,将关键要素、用户需求财政指标数据类型和用户需求财政指标数据请求方式进行结合获得用户需求财政指标数据的意图分析结果;
18、将意图分析结果映射到具体字段,所述具体字段包括财政指标、分析维度、时间范围和地域范围,并根据映射结果生成符合json格式的用户需求财政指标数据结构。
19、优选的,对用户需求财政指标数据的json结构作进行规范化处理,获得规范化的财政数据请求结构具体为:
20、结合规则引擎和机器学习对接收的用户需求财政指标数据的json结构进行数据验证,规则引擎用于定义验证规则检查字段的存在性和值的有效性,机器学习用于训练模型识别异常数据或不符合规范的数据,获得验证成功的用户需求财政指标数据的json结构;
21、预先收集不同级别政府财政报表的特定格式和科目体系作为dsl规范,并定义对应的转换规则,根据用户需求财政指标数据的dsl规范,应用预定义的转换规则,将标准json结构转换为dsl格式。
22、优选的,验证规则包括确定财政指标、分析维度、时间范围和地域范围字段是否存在;确定财政指标和分析维度的值是否符合预定义的规范;确定时间范围格式是否正确且开始时间小于结束时间;确定地域范围书否符合相应的地域规范。
23、优选的,数据处理层通过api获得规范化的财政数据请求结构,并输出标准化的财政指标数据集,包括指标值、相关元数据和质量标记具体为:
24、所述数据处理层通过开发规范化的api接口获取和处理用本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的财政领域智能数据分析平台,其特征在于,所述平台包括用户输入处理层、核心分析引擎、数据处理层和结果展示层,其中:
2.根据权利要求1所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,所述初步处理包括将用户的自然语言输入数据分割成单词或词组,并移除预设的对分析无用的常见词,标记移除后剩余每个词的词性。
3.根据权利要求2所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,问题分类模型为基于Transformer架构的大语言模型,包括共享编码器、分类头和提取头,其中,将初步处理后的输入数据作为共享编码器的输入,所述共享编码器通过自注意力机制捕捉输入数据中的上下文信息,输出对应的特征表示,将所述特征表示作为分类头和提取头的输入,输出问题类型标签和关键词;
4.根据权利要求3所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,混合检索策略中的向量检索包括文本嵌入和近似最近邻检索,具体为:
5.根据权利要求4所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,混合检索策略
6.根据权利要求5所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,混合检索策略还包括将向量检索相关记录数据集和关键词检索数据集进行初步合并,获得合并数据集,使用Rerank模型对合并数据集进行排序,所述Rerank模型基于向量相似度和关键词匹配程度,综合评分并排序,获得查询结果。
7.根据权利要求6所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,获得用户需求财政指标数据的JSON结构具体步骤为:
8.根据权利要求7所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,对用户需求财政指标数据的JSON结构作进行规范化处理,获得规范化的财政数据请求结构具体为:
9.根据权利要求8所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,验证规则包括确定财政指标、分析维度、时间范围和地域范围字段是否存在;确定财政指标和分析维度的值是否符合预定义的规范;确定时间范围格式是否正确且开始时间小于结束时间;确定地域范围书否符合相应的地域规范。
10.根据权利要求9所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,数据处理层通过API获得规范化的财政数据请求结构,并输出标准化的财政指标数据集,包括指标值、相关元数据和质量标记具体为:
...【技术特征摘要】
1.一种基于大语言模型的财政领域智能数据分析平台,其特征在于,所述平台包括用户输入处理层、核心分析引擎、数据处理层和结果展示层,其中:
2.根据权利要求1所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,所述初步处理包括将用户的自然语言输入数据分割成单词或词组,并移除预设的对分析无用的常见词,标记移除后剩余每个词的词性。
3.根据权利要求2所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,问题分类模型为基于transformer架构的大语言模型,包括共享编码器、分类头和提取头,其中,将初步处理后的输入数据作为共享编码器的输入,所述共享编码器通过自注意力机制捕捉输入数据中的上下文信息,输出对应的特征表示,将所述特征表示作为分类头和提取头的输入,输出问题类型标签和关键词;
4.根据权利要求3所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,混合检索策略中的向量检索包括文本嵌入和近似最近邻检索,具体为:
5.根据权利要求4所述的一种基于大语言模型的财政领域智能数据分析平台,其特征在于,混合检索策略中的关键词检索利用倒排索引技术和同义词扩展进行精确匹配和模糊匹配,具体为建立包含关键词的索引,识别关键词的同义词并进行拓展,使用扩展后的关键词在倒排索引中进行检索,获得关键词...
【专利技术属性】
技术研发人员:杨秋妍,胡锦锋,宋冬林,朱轩,吕致富,
申请(专利权)人:福建博思软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。