【技术实现步骤摘要】
训练方法及装置、数据处理方法及装置、设备、可读介质
[0001]本公开涉及计算机
,特别涉及一种训练方法及装置、数据处理方法及装置、设备、可读介质。
技术介绍
[0002]每个应用程序的运行都会产生应用日志,通常以日志文件的形式存储在应用中。日志文件对于掌握应用程序的运行状况、排查应用程序的运行故障都起到很重要的作用,是应用程序不可或缺的部分。
技术实现思路
[0003]本公开提供一种训练方法及装置、数据处理方法及装置、设备、可读介质。
[0004]第一方面,本公开提供了一种结构化数据模型的训练方法,该方法包括:
[0005]将多个第一训练样本输入待训练的结构化数据模型,利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据;
[0006]在所述结构化数据与标准数据之间的损失值小于预设的第一损失阈值的情况下,获得训练好的所述结构化数据模型;
[0007]所述利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据,包括:
[0008]对第一训练样本进行打码处理,得到多个语料句子;其中,每个所述第一训练样本对应的多个语料句子中的打码位置不同;
[0009]根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;
[0010]基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;
[0011]基于各个 ...
【技术保护点】
【技术特征摘要】
1.一种结构化数据模型的训练方法,其特征在于,包括:将多个第一训练样本输入待训练的结构化数据模型,利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据;在所述结构化数据与标准数据之间的损失值小于预设的第一损失阈值的情况下,获得训练好的所述结构化数据模型;所述利用所述多个第一训练样本训练所述待训练的结构化数据模型,获得并输出结构化数据,包括:对第一训练样本进行打码处理,得到多个语料句子;其中,每个所述第一训练样本对应的多个语料句子中的打码位置不同;根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;基于各个所述打码位置的属性对所述第一训练样本中各个所述打码位置的字符进行替换,获得并输出所述结构化数据。2.根据权利要求1所述的方法,其特征在于,所述打码位置包括标记符、随机词和保留词,其中,所述标记符用于替换所述第一训练样本中的字符的符号,所述随机词是用于替换所述第一训练样本中的字符的词语,所述保留词是所述第一训练样本中的原有的字符。3.根据权利要求1所述的方法,其特征在于,所述打码位置的属性包括常量和变量;所述基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性,包括:若存在所述概率大于或等于预设的概率阈值的候选词,则确定所述打码位置的属性为常量;若所述词库中的所有词在所述打码位置出现的概率小于预设的概率阈值,则确定所述打码位置的属性为变量。4.根据权利要求3所述的方法,其特征在于,所述基于各个所述打码位置的属性对所述第一训练样本中各个所述打码位置的字符进行替换,获得所述结构化数据,包括:利用通配符替换所述第一训练样本中属性为变量的所述打码位置的字符,获得所述结构化数据。5.根据权利要求3所述的方法,其特征在于,所述第一训练样本是基于历史日志生成的样本;所述对第一训练样本进行打码处理,得到多个语料句子之前,还包括:将所述第一训练样本中对所述第一训练样本的语义无实质贡献的字符删除。6.一种日志数据处理方法,其特征在于,包括:获取多个待处理日志;将所述多个待处理日志输入结构化数据模型,利用所述结构化数据模型对所述多个待处理日志进行处理,获得并输出所述待处理日志对应的结构化日志;其中,所述结构化数据模型采用权利要求1至5任意一项所述的训练方法获得的模型;所述利用所述结构化数据模型对所述多个待处理日志进行处理,获得并输出所述待处理日志对应的结构化日志,包括:对所述多个待处理日志进行打码处理,得到多个语料句子;其中,每个所述待处理日志
对应的多个语料句子中的打码位置不同;根据每个所述语料句子中未打码文字的语义和预设的词库,对所述打码位置的词进行预测,获得所述词库中的每个词在各个所述打码位置出现的概率;基于所述词库中的词在各个所述打码位置出现的概率确定各个所述打码位置的属性;基于各个所述打码位置的属性对所述待处理日志中各个所述打码位置的字符进行替换,获得并输出所述结构化日志。7.根据权利要求6所述的方法,其特征在于,所述输出每个所述待处理日志对应的结构化日志之后,还包括:将所述多个结构化日志输入日志聚类及模板抽取模型,获得所述多个结构化日志的聚类结果或新日志模板。8.根据权利要求7所述的方法,其特征在于,所述将所述多个结构化日志输入日志聚类及模板抽取模型,获得所述多个结构化日志的聚类结果或新日志模板之前,还包括:获取多个第二训练样本,并对所述多个第二训练样本进行结构化,获得多个第二结构化样本;其中,所述第二训练样本是基于历史日志产生的;将所述多个第二结构化样本输入待训练的日志聚类及模板抽取模型,所述待训练的日志聚类及模板抽取模型输出聚类结果或新日志模板;在所述聚类结果与标准聚类结果之间的损失值小于预设的第二损失阈值,以及所述新日志模板与预设的标准模板之间的损失值小于预设的第三损失阈值的情况下,获得训练好的所述日志聚类及模板抽取模型;所述待训练的日志聚类及模板抽取模型利用所述多个第二结构化样本执行以下训练步骤:对所述多个第二结构化样本进行聚类,获得所述聚类结果;基于无法聚类的所述第二结构化样本...
【专利技术属性】
技术研发人员:田科位,唐蠡,曾琳铖曦,吴海英,蒋宁,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。