System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于大数据,特别是涉及一种语料交付和应用规则的管理方法及系统。
技术介绍
1、人工智能大模型是指使用大规模数据和强大的计算能力训练出来的“大参数”模型,这些模型通常具有高度的通用性和泛化能力,可以应用于自然语言处理、图像识别、语音识别等领域,可分为大语言模型、视觉大模型、多模态大模型、基础大模型。
2、而语料是用来训练人工智能大模型的重要材料,语料一般是指用于语言学研究和自然语言处理中的实例和数据集。它可以是书面文本、口语记录或其他结构化数据,通常用于分析语言现象、支持机器翻译、语音识别、自动文本摘要等任务。通常的语料是一组经过收集、整理和标注的文本或语音数据。这些数据在语言学研究中用于分析语言的使用规律、词汇变化和语法结构等。在自然语言处理中,语料是训练和测试模型的基础数据源,支持机器翻译、语音识别、情感分析等功能。
3、在现有技术中对大模型训练的语料缺乏有效管理,无法对语料的质量进行高效管理,且容易存在安全隐患,很容易影响最终训练得到大模型的质量。
技术实现思路
1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种语料交付和应用规则的管理方法及系统,用于解决现有技术中语料管理效率低的问题。
2、为实现上述目的及其他相关目的,本专利技术提供一种语料交付和应用规则的管理方法,包括:
3、获取用户的交付需求,根据所述交付需求确定目标语料,并对所述目标语料进行交付准备;
4、在完成交付准备之后,根据用户
5、在完成交付之后,获取所述目标语料的应用需求,根据所述应用需求部署环境并导入交付的所述目标语料,基于部署的环境对所述目标语料进行测试应用;
6、实时监控并记录所述目标语料的使用情况。
7、于本专利技术的一实施例中,所述交付需求包括语料类型、语料数量、语料格式、交付时间和应用场景,所述根据所述交付需求确定目标语料,并对目标语料进行交付准备,包括:
8、根据所述语料类型、所述语料格式和所述应用场景选择所述目标语料,生成所述目标语料的编制交付文档,所述交付文档包括语料清单、元数据说明、交付时间和使用指南;
9、对所述目标语料进行病毒查杀,以去除所述目标语料中的安全隐患;
10、对查杀之后的所述目标语料进行完整性检查。
11、于本专利技术的一实施例中,所述对所述目标语料进行病毒查杀,以去除所述目标语料中的安全隐患,包括:
12、获取所述目标语料的特征信息和路径信息,计算所述特征信息的复杂度和所述路径信息的敏感度;
13、根据所述复杂度大小将所述目标语料划分为多个第一语料组,根据所述敏感度的大小将所述目标语料划分为多个第二语料组,所述第一语料组和所述第二语料组的数量相同;
14、调用历史病毒库和结果存储库,分别计算每一个所述第一语料组和所述第二语料组存在与所述历史病毒库中病毒信息和恶意代码相似的比例,以分别得到第一相似系数和第二相似系数,分别计算每一个所述第一语料组和所述第二语料组存在与所述结果存储库中相同语料的占比,以分别得到第一隐患系数和第二隐患系数,所述历史病毒库为存储往期语料中查出来的病毒信息和恶意代码信息,所述结果存储库用于存储往期检查出来存在病毒或者恶意代码的语料信息;
15、根据所述第一相似系数和所述第一隐患系数计算所述第一语料组的第一危险值,根据所述第一相似系数和第二隐患系数计算所述第二语料组的第二危险值,根据所述第一危险值和所述第二危险值分别对所述第一语料组和所述语料组进行排序,并根据排序结果进行不同程度的安全检查。
16、于本专利技术的一实施例中,所述根据所述第一危险值和所述第二危险值分别对所述第一语料组和所述语料组进行排序,并根据排序结果进行不同程度的安全检查,包括:
17、根据所述第一危险值的大小对所述第一语料组进行排序以得到第一排序语料集,根据所述第二危险值的大小对所述第二语料组进行排序以得到第二排序语料集,所述第一排序语料集和所述第二排序语料集的排序方式相同,均为从大到小或者从小到大;
18、按顺序将所述第一排序语料集的所述第一语料组和所述第二排序语料集中的所述第二语料组一一匹配后建立组合以形成多个语料组合;
19、获取每一个所述语料组合中所述第一语料组和所述第二语料组的重合语料,并计算每一个所述重合语料中所述第一危险值和所述第二危险值之和得到目标危险值;
20、将所述目标危险值大于或等于安全阈值时对应的所述语料组合所对应的所述重合语料作为第一类语料,将所述目标危险值小于所述安全阈值时对应的所述语料组合所对应的所述重合语料作为第二类语料,将所述目标语料中除去所述第一类语料和所述第二类语料中的语料作为第三类语料;
21、对所述第一类语料进行第一查杀,对所述第二类语料进行第二查杀,对所述第三类语料进行第三查杀,其中,所述第一查杀、所述第二查杀和所述第三查杀的优先级和检查范围依次降低。
22、于本专利技术的一实施例中,所述根据用户需求选择对应的交付方式,并将所述目标语料交付至所述用户,包括:
23、获取所述目标语料的数据安全等级,根据所述数据安全等级选择对应的交付渠道;
24、与所述用户建立连接后获取密钥库中的密钥序号,根据所述密钥序号确定所述用户选择的加密密钥,根据所述加密密钥对所述目标语料进行加密处理得到加密语料,并将所述密钥序号配置在所述加密语料中得到混合加密语料,将所述混合加密语料发送至所述用户;
25、在确定所述用户接收到所述混合加密语料之后,完成交付。
26、于本专利技术的一实施例中,所述方法还包括:
27、在对所述目标语料进行测试应用的过程中,获取所述目标语料中的隐私信息;
28、对所述隐私信息进行分类得到类别信息,并根据所述类别信息对分类后的所述隐私信息配置访问权限。
29、于本专利技术的一实施例中,所述实时监控并记录所述目标语料的使用情况,包括:
30、获取每一个所述目标语料的使用情况,包括使用频率、使用时间和使用对象;
31、根据所述使用频率、所述使用时间和所述使用对象对所述目标语料进行价值评估;
32、根据评估结果对所述目标语料设置对应的计量计费标准;
33、定期生成语料使用报告并发送至所述用户。
34、于本专利技术的一实施例中,所述方法还包括:
35、根据所述评估结果对所述目标语料进行优化调整,并对应生成操作报告;
36、根据所述目标语料的使用情况建立语料配方库,以记录不同应用场景内的语料配方。
37、于本专利技术的一实施例中,所述根据所述使用频率、所述使用时间和所述使用对象对所述目标语料进行价值评估,包括:
38、调用往期语料的往期使用信息,根据所述往期使用信息计算所述往期语料的本文档来自技高网...
【技术保护点】
1.一种语料交付和应用规则的管理方法,其特征在于,包括:
2.根据权利要求1所述的语料交付和应用规则的管理方法,其特征在于,所述对所述目标语料进行病毒查杀,以去除所述目标语料中的安全隐患,包括:
3.根据权利要求2所述的语料交付和应用规则的管理方法,其特征在于,所述根据所述第一危险值和所述第二危险值分别对所述第一语料组和所述语料组进行排序,并根据排序结果进行不同程度的安全检查,包括:
4.根据权利要求1所述的语料交付和应用规则的管理方法,其特征在于,所述根据用户需求选择对应的交付方式,并将所述目标语料交付至所述用户,包括:
5.根据权利要求1所述的语料交付和应用规则的管理方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的语料交付和应用规则的管理方法,其特征在于,所述实时监控并记录所述目标语料的使用情况,包括:
7.根据权利要求6所述的语料交付和应用规则的管理方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的语料交付和应用规则的管理方法,其特征在于,所述根据所述使用频率、所述使用
9.一种语料交付和应用规则的管理系统,其特征在于,包括:
...【技术特征摘要】
1.一种语料交付和应用规则的管理方法,其特征在于,包括:
2.根据权利要求1所述的语料交付和应用规则的管理方法,其特征在于,所述对所述目标语料进行病毒查杀,以去除所述目标语料中的安全隐患,包括:
3.根据权利要求2所述的语料交付和应用规则的管理方法,其特征在于,所述根据所述第一危险值和所述第二危险值分别对所述第一语料组和所述语料组进行排序,并根据排序结果进行不同程度的安全检查,包括:
4.根据权利要求1所述的语料交付和应用规则的管理方法,其特征在于,所述根据用户需求选择对应的交付方式,并将所述目标语料交付至所述用户,...
【专利技术属性】
技术研发人员:贺仁龙,
申请(专利权)人:国创智造科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。