System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自然语言处理,具体涉及一种基于困惑度驱动大语言模型的电网营销数据标注方法及其对应的电网营销业务的互动平台和设备。
技术介绍
1、随着大语言模型(llm)的快速发展和应用广泛化,其在电网行业中处理规则和政策文档,如供电营业规则,展示了显著的潜力。传统上,电网营销领域的大模型训练依赖于人工标注和设计的训练数据,这一过程不仅耗时而且成本高昂。大模型可以辅助完成样本数据集的错误识别与标准,然而,在处理含有大量数据信息的文档时,大模型在生成数据过程中往往会在这些数字上产生一些幻觉问题,这可能导致误解或错误应用规则和技术规范。
2、目前,尽管尚无针对大语言模型在生成数据时出现幻觉问题的专门解决方案,但已有一些方法被提出来应对大语言模型在常规对话中的幻觉问题。主要的解决方案分为模型训练和应用两个阶段,旨在有效缓解模型幻觉。在训练阶段,该方案集中于构建高质量的样本数据集,优化模型结构以更好地利用源信息,并引入可控的文本生成及强化学习技术。在应用阶段,则通过连接外部知识库召回相关信息,并对模型的输出进行检测,识别和修正任何幻觉,从而减少在文本生成过程中幻觉的出现。
3、关于应用阶段的幻觉缓解,技术人员的研究提出了如下的多种用于对模型产生的幻觉进行后期编辑和修正的方案:
4、中国专利技术专利申请公开号cn117875327a公开的技术方案使用大语言模型根据关键信息生成内容,借助命名实体识别模型来检测文本中的实体。通过计算生成内容中的实体与关键信息的实体差集来定位虚假句子。该系统利用本地知识库或其他外
5、中国专利技术专利申请公开号cn117931983a公开了一种在自然语言处理领域中利用大模型生成准确回答的方法及系统。该方法主要包括以下步骤:对来自不同来源领域的文本进行预处理,并将预处理后的文本导入到elasticsearch中,通过预定义的es索引映射结构进行管理;然后,构建一个基于langchain的自定义检索工具来返回相关文档,并将处理后的文本嵌入到预设计的prompt框架中,大模型根据这些框架中包含的外部信息生成用户问题的最终回答。该方案展示了在生成准确回答时的强大能力,但其实施过程中还是存在一些挑战。首先,系统依赖于复杂的数据处理和检索系统,这在处理涉及多个电压参数和规格的技术问题时,不仅需要大量的存储和计算资源,还可能导致性能瓶颈。尤其在数据量大或查询复杂的情况下,多步骤的处理过程(从数据预处理、索引、检索到回答生成)可能导致系统响应时间延迟。此外,系统的效能和响应速度极大地依赖于数据索引的结构和检索策略的优化。如果索引或检索策略设计不当,可能会影响到对复杂电压类型和允许偏差数据的准确检索和高效处理。
6、中国专利技术专利申请公开号cn117540811a公开了一种应用于大型语言模型
的系统和方法,旨在解决大型语言模型中的幻觉问题。其工作流程是:首先,将提问信息及其相关数据(包括第一次检索项和搜索结果)输入到预处理大模型中,基于这些信息生成第二次更精确的检索项。然后在数据库中进行第二次搜索,得到新的搜索结果。最终,系统将所有这些信息(包括两轮的搜索结果和可溯源的内容)用于校正模块,以校正和优化最初生成的可溯源内容。该方案采用了多步骤的系统化流程来提高模型输出的准确性,这一过程涉及多轮迭代的搜索和校正。例如,在处理前述的具体问题时,每一轮迭代都需要检索和分析大量包含电压等级和偏差参数的文档数据。虽然这种方法旨在通过不断的校正提升信息的准确度,但多次迭代不仅可能增加系统的复杂性,也会导致运行时间延长。更重要的是,每次校正的过程中也存在误将原本准确的信息误改的风险,这可能导致新的错误累积。尤其在数据量庞大时,即便是小比例的误校正也可能影响最终结果的准确性,使得大模型在尝试解决幻觉问题的过程中反而引入新的误差。因此,这种方法在确保输出质量的同时,可能在效率和潜在误差控制方面面临挑战。
技术实现思路
1、为了解决电网营销业务中采用的大模型存在的模型幻觉问题,本专利技术提供一种基于困惑度驱动大语言模型的电网营销数据标注方法及其对应的电网营销业务的互动平台和设备。
2、本专利技术提供的技术方案为:
3、一种基于困惑度驱动大语言模型的电网营销数据标注方法,其包括如下步骤:
4、s1:针对电网营销领域的具体需求,收集相关的数据,并对其进行数据预处理,构成所需的样本数据集。
5、s2:收集与电网营销业务相关的问题,将其输入到任意一种商用的大语言模型中,根据大语言模型生成的内容构造一系列的初始问答对。
6、s3:结合样本数据集对大语言模型构建的初始问答对进行困惑度检测,并筛选出存在准确性风险的初始问答对。
7、s4:由技术人员对存在准确性风险的初始问答对进行人工审查和修正后构成标注数据,采集大量经人工审查标注的数据,构成用于对商用的大语言模型进行重新监督训练的知识库。
8、作为本专利技术进一步的改进,步骤s1中,收集到的相关的数据包括供电营业规则、行业法规、定价策略信息、业扩报装,操作规范、市场报告、采集信息。
9、在数据预处理过程中,对数值型数据进行数据清洗和归一化,并抽取采集到的相关数据中的文本数据,进而对其进行格式化和向量化。
10、作为本专利技术进一步的改进,数据清洗过程中首先采用统计正则化技术来识别并纠正样本数据集中的异常值,然后采用隔离森林、自动编码器或其它异常检测算法来识别和修正数据中的错误,进而去除无关、重复或缺失的数据。
11、作为本专利技术进一步的改进,样本数据集中的文本数据通过langchain框架完成预处理和向量化。
12、作为本专利技术进一步的改进,采用的大语言模型包括chatglm、gpt-3;其中,购买的大语言模型服务通过调用api接口实现应用。
13、作为本专利技术进一步的改进,步骤s3中,qa对的困惑度检测方法如下:
14、s31:通过下式计算每个qa对中问题经过softmax函数转换后,属于第i个类别的概率pi:
15、
16、上式中,zj表示第j个答案向量;n表示类别的总数;是zi的指数得分;分母是对所有类别的指数得分本文档来自技高网...
【技术保护点】
1.一种基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,其包括如下步骤:
2.如权利要求1所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,步骤S1中,收集到的相关的数据包括供电营业规则、行业法规、定价策略信息、业扩报装,操作规范、市场报告、采集信息;
3.如权利要求2所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,所述数据清洗过程中首先采用统计正则化技术来识别并纠正样本数据集中的异常值,然后采用隔离森林、自动编码器或其它异常检测算法来识别和修正数据中的错误,进而去除无关、重复或缺失的数据。
4.如权利要求2所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,样本数据集中的文本数据通过LangChain框架完成预处理和向量化。
5.如权利要求1所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于:采用的大语言模型包括ChatGLM、GPT-3,购买的大语言模型服务通过调用API接口实现应用。
6.如权利要求5所述的基于困惑度驱动大语言模型的电网营销数
7.如权利要求1所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于:步骤S4中,针对经人工审查后得到的知识库,还采用决策树或随机森林对知识库中的内容条目进行分类和回归分析,以验证其准确性并优化信息结构。
8.一种电网营销业务互动平台,其用于采用如权利要求1-7中任意一项所述的基于困惑度驱动大语言模型的电网营销数据标注方法,克服电网营销业务中采用的大语言模型的模型幻觉问题;所述电网营销业务互动平台包括:
9.如权利要求8所述的电网营销业务互动平台,其特征在于:所述模型调用单元采用的API接口支持加密数据传输和身份验证功能,以确保数据在传输过程中的安全性和实现对用户访问权限进行管理。
10.一种电网营销业务互动设备,其包含存储器、处理器,以及存储在所述存储器内并在处理器中运行的计算机程序,其特征在于:所述处理器执行计算机程序时,创建出如权利要求8或9所述的电网营销业务互动平台;实现基于大语言模型的用户交互,并缓解大语言模型存在的模型幻觉。
...【技术特征摘要】
1.一种基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,其包括如下步骤:
2.如权利要求1所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,步骤s1中,收集到的相关的数据包括供电营业规则、行业法规、定价策略信息、业扩报装,操作规范、市场报告、采集信息;
3.如权利要求2所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,所述数据清洗过程中首先采用统计正则化技术来识别并纠正样本数据集中的异常值,然后采用隔离森林、自动编码器或其它异常检测算法来识别和修正数据中的错误,进而去除无关、重复或缺失的数据。
4.如权利要求2所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于,样本数据集中的文本数据通过langchain框架完成预处理和向量化。
5.如权利要求1所述的基于困惑度驱动大语言模型的电网营销数据标注方法,其特征在于:采用的大语言模型包括chatglm、gpt-3,购买的大语言模型服务通过调用api接口实现应用。
6.如权利要求5所述的基于困惑度驱动大语言模型的...
【专利技术属性】
技术研发人员:陈曦鸣,段玉卿,单永梅,刘金友,倪妍妍,齐红涛,孙飞,唐丽,黄丹,杨峰,周鹏飞,高媛,袁加梅,汤旭,常乐,王海鸿,吴玲玲,曹有霞,许雅雯,彭田,梁碧茹,
申请(专利权)人:国网安徽省电力有限公司营销服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。