System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,具体而言,涉及一种数据处理方法及装置、非易失性存储介质、电子设备。
技术介绍
1、随着金融科技的发展,金融机构正经历着前所未有的变革。为了适应这一变化,许多金融机构正在积极引入人工智能技术,以提升运营效率和服务质量。金融机构人工智能应用平台作为这一趋势下的产物,成为了行业内的焦点。金融机构人工智能应用平台通常集成了机器学习、自然语言处理、大数据分析等多种先进技术。这些技术的应用不仅能够帮助金融机构实现自动化处理日常业务,还能通过智能算法对海量数据进行深度挖掘,从而为客户提供更为个性化的服务体验。
2、以大模型在客户服务场景的应用为例,大模型能够理解并处理复杂的语义结构,更准确地解析和理解用户的自然语言输入。大模型能够使客服更具有同理心和人性化,有效管理用户情绪。大模型可根据坐席与客户的聊天内容,智能生成知识问答,提升知识库维护效率。 客户服务领域的大模型应用凭借其强大的数据处理能力和智能化的服务模式,通过24小时不间断地解答客户疑问,提高了服务效率和客户满意度。
3、与此同时,大模型在客户服务领域的应用仍面临以下挑战,大模型同时处理多个请求时能力有限,易造成响应延迟。
4、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请提供了一种数据处理方法及装置、非易失性存储介质、电子设备,以至少解决由于大语言模型同时处理多个请求的能力有限,造成的响应延迟较高的技术问题。
2、根据本申请的一个方面,提供了一
3、可选地,在预设专业知识库中查找输入数据对应的初步候选结果集,包括:提取输入数据中的目标关键词,在预设专业知识库中的索引信息中查找目标关键词对应的初步候选结果集,其中,初步候选结果集包括:文档和/或段落;对初步候选结果集中的初步候选结果进行向量化处理,包括:将初步候选结果集中的初步候选结果转换为第二向量表示,得到多个第二向量表示;对初步候选结果集中的初步候选结果的向量化处理结果进行排序,得到预设专业知识库的第一输出结果,包括:将输入数据转换为第一向量表示,计算第一向量表示与每个第二向量表示之间的相似度,得到多个相似度;根据候选结果的来源是否为预设数据库、候选结果在预设专业知识库中的更新时间、候选结果的文本长度以及相似度,确定候选结果对应的综合得分;按照与输入数据匹配程度由高到低的顺序,对综合得分最高的目标候选结果中的段落进行排序,得到预设专业知识库的第一输出结果。
4、可选地,确定第一输出结果的任务类型,包括:获取金融领域的关键词库,其中,关键词库中包括:金融术语、金融产品名称、金融操作名称以及与金融相关的查询类关键词;获取规则库,其中,规则库中包括判断输入数据为简单任务的目标规则,目标规则包括:输入数据中仅包括单一金融产品名称和/或预设查询类关键词;若第一输出结果不符合规则库中的目标规则,利用自然语言处理技术对第一输出结果进行语义分析,确定第一输出结果的语义意图;若语义意图指向单一金融产品名称和/或预设查询类关键词,确定第一输出结果为简单任务;若语义意图中包括多个子句和/或逻辑连接词,且语义意图指向多方面金融信息的处理流程,确定第一输出结果为复杂任务。
5、可选地,第一预设大语言模型为通过如下方法训练得到的:收集金融领域数据,并对金融领域数据进行预处理,生成第一训练集以及第一验证集;选定参数量在m至n范围内的神经网络架构作为第一模型架构,其中,m取值范围为100万至1亿,n取值范围为5亿至10亿;采用随机参数初始化方式,为第一模型架构的神经网络参数赋予初始值;将第一训练集输入第一模型架构进行训练,采用的训练算法包括:随机梯度下降法,其中,随机梯度下降法的初始学习率在l1至l2之间,l1取值范围为0.001至0.01,l2取值范围为0.1至0.5,训练过程中根据第一验证集的损失函数值调整学习率,当第一验证集的损失连续k个训练周期未下降时,降低学习率,k的取值范围为3至10;在每个训练周期结束后,使用第一验证集评估第一模型架构的第一性能指标参数,若第一性能指标参数小于第一预设阈值,调整模型架构参数,重新进行训练;在第一性能指标参数大于等于第一预设阈值的情况下,得到第一预设大语言模型。
6、可选地,第二预设大语言模型为通过如下方法训练得到的:收集金融领域数据,并对金融领域数据进行预处理,生成第二训练集以及第二验证集;选定参数量在p至q范围内的神经网络架构作为第一模型架构,其中,m取值范围为100万至1亿,n取值范围为5亿至10亿;采用随机参数初始化方式,为第二模型架构的神经网络参数赋予初始值;将第二训练集输入第二模型架构进行训练,采用的训练算法包括:随机梯度下降法,其中,随机梯度下降法的初始学习率在l3至l4之间,l3取值范围为0.0001至0.001,l4取值范围为0.01至0.1,训练过程中根据第二验证集的损失函数值调整学习率,当第二验证集的损失连续j个训练周期未下降时,降低学习率,j的取值范围为5至15;在每个训练周期结束后,使用第二验证集评估第二模型架构的第二性能指标参数,若第二性能指标参数小于第二预设阈值,调整模型架构参数,重新进行训练;在第二性能指标参数大于等于第二预设阈值的情况下,得到第二预设大语言模型。
7、可选地,对金融领域数据进行预处理,包括:对金融领域数据进行清洗操作,去除金融领域数据中的噪声数据、重复数据、格式错误数据以及无关的非金融领域特定数据;对清洗后的金融领域数据进行文本标准化处理,其中,文本标准化处理包括:统一文本格式、大小写规范、标点符号处理以及预设金融专业术语的标准化转换。
8、可选地,金融领域数据包括:金融机构的官方文档数据、客户交互数据以及金融市场数据,其中,官方文档数据包括:业务政策文件、产品说明书、操作流程手册,客户交互数据包括:客户咨询记录、投诉记录、建议反馈,金融市场数据包括:利率变动信息、行业统计报告。
9、根据本申请的再一方面,还提供了一种数据处理装置,包括:接收模块,用于接收输入数据;处理模块,用于在预设专业知识库中查找输入数据对应的初步候选结果集;对初步候选结果集中的初步候选结果进行向量化处理;对初步候选结果集中的初步候选结果的向量化处理结果进行排序,得到预设专业知识库的第一输出结果;确本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,确定所述第一输出结果的任务类型,包括:
4.根据权利要求1所述的方法,其特征在于,所述第一预设大语言模型为通过如下方法训练得到的:
5.根据权利要求1所述的方法,其特征在于,所述第二预设大语言模型为通过如下方法训练得到的:
6.根据权利要求4所述的方法,其特征在于,对所述金融领域数据进行预处理,包括:
7.根据权利要求6所述的方法,其特征在于,所述金融领域数据包括:金融机构的官方文档数据、客户交互数据以及金融市场数据,其中,所述官方文档数据包括:业务政策文件、产品说明书、操作流程手册,所述客户交互数据包括:客户咨询记录、投诉记录、建议反馈,所述金融市场数据包括:利率变动信息、行业统计报告。
8.一种数据处理装置,其特征在于,包括:
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的数据处理方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的数据处理方法。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,确定所述第一输出结果的任务类型,包括:
4.根据权利要求1所述的方法,其特征在于,所述第一预设大语言模型为通过如下方法训练得到的:
5.根据权利要求1所述的方法,其特征在于,所述第二预设大语言模型为通过如下方法训练得到的:
6.根据权利要求4所述的方法,其特征在于,对所述金融领域数据进行预处理,包括:
7.根据权利要求6所述的方法,其特征在于,所述金融领域数据包括:金融机构的官方文档数据、客户交互数据以及金融市场数据,其中,所述官方文档数据包括:业务政策文件、产品说明书、操作流...
【专利技术属性】
技术研发人员:丁志勇,庞博,沈雨欣,党卯钊,魏菊,卢苇,张志朋,贝东昇,杨达森,刘佳,李博华,
申请(专利权)人:北京银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。