System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 字符分隔值文件的目标对象识别方法技术_技高网

字符分隔值文件的目标对象识别方法技术

技术编号:42559256 阅读:3 留言:0更新日期:2024-08-29 00:29
本说明书实施例提供字符分隔值文件的目标对象识别方法,其中该方法包括:确定待识别的字符分隔值文件;根据预设特征提取方法,对待识别的字符分隔值文件进行特征提取,获得目标特征向量;将所述目标特征向量输入对应的目标对象识别模型,获得与所述目标特征向量对应的目标对象,其中,所述目标对象识别模型通过字符分隔值文件训练样本对应的特征向量样本、以及所述字符分隔值文件训练样本对应的样本标签训练获得,且所述目标对象识别模型为机器学习模型,能利用目标对象识别模型对任意格式的字符分隔值文件进行识别,具有普适性,且不仅能节省大量的人力物力资源,还可提高对字符分隔值文件中的数据进行处理的处理效率、准确性和可靠性。

【技术实现步骤摘要】

本说明书实施例涉及计算机,特别涉及一种字符分隔值文件的目标对象识别方法


技术介绍

1、csv(comma-separated values,逗号分隔值,也称为字符分隔值)文件是一种常用的数据存储格式,广泛应用于各种业务场景,包括数据分析、数据库导入/导出、数据迁移等。然而,csv文件中的数据格式并没有合理的标准,不同应用程序读写的数据会存在细微的差别;例如,csv文件中的分隔符可以是逗号、制表符或其他字符,而文件中的表头和字段是否加引号,以及各个字段是否被引号括起这些都是没有统一规范的,如果被括起的话,那么是利用单引号括起还是双引号括起也是没有统一规范的。

2、csv文件中的字段分隔符可以为任意一个字符,导致手动或自动解析csv文件时可能会遇到困难,且csv文件中是否有表头通常只能通过人工分析,因此,亟需一种字符分隔值文件的目标对象识别方法,解决目前需要人工分析、判断、干预或编写特定代码来解析不同格式csv文件的问题。


技术实现思路

1、有鉴于此,本说明书实施例提供了一种字符分隔值文件的目标对象识别方法、一种目标对象识别模型训练方法。本说明书一个或者多个实施例同时涉及一种字符分隔值文件的目标对象识别装置,一种目标对象识别模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种字符分隔值文件的目标对象识别方法,包括:

3、确定待识别的字符分隔值文件;>

4、根据预设特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得目标特征向量;

5、将所述目标特征向量输入对应的目标对象识别模型,获得与所述目标特征向量对应的目标对象,其中,所述目标对象识别模型通过字符分隔值文件训练样本对应的特征向量样本、以及所述字符分隔值文件训练样本对应的样本标签训练获得,且所述目标对象识别模型为机器学习模型。

6、根据本说明书实施例的第二方面,提供了一种字符分隔值文件的目标对象识别装置,包括:

7、确定模块,被配置为确定待识别的字符分隔值文件;

8、向量获得模块,被配置为根据预设特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得目标特征向量;

9、对象获得模块,被配置为将所述目标特征向量输入对应的目标对象识别模型,获得与所述目标特征向量对应的目标对象,其中,所述目标对象识别模型通过字符分隔值文件训练样本对应的特征向量样本、以及所述字符分隔值文件训练样本对应的样本标签训练获得,且所述目标对象识别模型为机器学习模型。

10、根据本说明书实施例的第三方面,提供了一种目标对象识别模型训练方法,包括:

11、确定字符分隔值文件训练样本,以及所述字符分隔值文件训练样本对应的样本标签;

12、根据预设特征提取方法,对所述字符分隔值文件训练样本进行特征提取,获得特征向量样本;

13、根据所述特征向量样本、所述样本标签,利用分类算法训练获得目标对象识别模型。

14、根据本说明书实施例的第四方面,提供了一种目标对象识别模型训练装置,包括:

15、确定模块,被配置为确定字符分隔值文件训练样本,以及所述字符分隔值文件训练样本对应的样本标签;

16、向量获得模块,被配置为根据预设特征提取方法,对所述字符分隔值文件训练样本进行特征提取,获得特征向量样本;

17、训练模块,被配置为根据所述特征向量样本、所述样本标签,利用分类算法训练获得目标对象识别模型。

18、根据本说明书实施例的第五方面,提供了一种计算设备,包括:

19、存储器和处理器;

20、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述字符分隔值文件的目标对象识别方法、或实现上述目标对象识别模型训练方法的步骤。

21、根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述字符分隔值文件的目标对象识别方法、或实现上述目标对象识别模型训练方法的步骤。

22、根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述字符分隔值文件的目标对象识别方法、或实现上述目标对象识别模型训练方法的步骤。

23、本说明书实施例提供的字符分隔值文件的目标对象识别方法,确定待识别的字符分隔值文件;根据预设特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得目标特征向量;将所述目标特征向量输入对应的目标对象识别模型,获得与所述目标特征向量对应的目标对象,其中,所述目标对象识别模型通过字符分隔值文件训练样本对应的特征向量样本、以及所述字符分隔值文件训练样本对应的样本标签训练获得,且所述目标对象识别模型为机器学习模型。

24、基于此,该字符分隔值文件的目标对象识别方法,通过对待识别的字符分隔值文件进行特征提取,将获得的目标特征向量输入目标对象识别模型中,获得与所述目标特征向量对应的目标对象,在利用目标对象识别模型对字符分隔值文件进行处理的情况下,能够对任意格式的字符分隔值文件进行识别,具有普适性,且不仅能够节省大量的人力物力资源,还可以提高对字符分隔值文件中的数据进行处理的处理效率、准确性和可靠性。

本文档来自技高网...

【技术保护点】

1.一种字符分隔值文件的目标对象识别方法,其特征在于,包括:

2.根据权利要求1所述的字符分隔值文件的目标对象识别方法,其特征在于,所述预设特征提取方法包括分隔符特征提取方法、表头特征提取方法;

3.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述目标对象识别模型包括分隔符识别模型和/或表头识别模型;

4.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述分隔符特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得分隔符特征向量,包括:

5.根据权利要求4所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述各目标分隔符的出现次数最小值,获得分隔符特征向量,包括:

6.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述表头特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得表头特征向量,包括:

7.根据权利要求1所述的字符分隔值文件的目标对象识别方法,其特征在于,所述目标对象识别模型通过如下步骤训练:

8.一种目标对象识别模型训练方法,其特征在于,包括:

9.根据权利要求8所述的目标对象识别模型训练方法,其特征在于,所述预设特征提取方法包括分隔符特征提取方法、表头特征提取方法;

10.根据权利要求9所述的目标对象识别模型训练方法,其特征在于,所述目标对象识别模型包括分隔符识别模型和/或表头识别模型,所述样本标签包括分隔符样本标签和/或表头样本标签;

...

【技术特征摘要】

1.一种字符分隔值文件的目标对象识别方法,其特征在于,包括:

2.根据权利要求1所述的字符分隔值文件的目标对象识别方法,其特征在于,所述预设特征提取方法包括分隔符特征提取方法、表头特征提取方法;

3.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述目标对象识别模型包括分隔符识别模型和/或表头识别模型;

4.根据权利要求2所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述分隔符特征提取方法,对所述待识别的字符分隔值文件进行特征提取,获得分隔符特征向量,包括:

5.根据权利要求4所述的字符分隔值文件的目标对象识别方法,其特征在于,所述根据所述各目标分隔符的出现次数最小值,获得分隔符特征向量,包括:

【专利技术属性】
技术研发人员:吴亮
申请(专利权)人:极术杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1