一种人工智能训练集的获取方法及装置制造方法及图纸

技术编号:22643285 阅读:50 留言:0更新日期:2019-11-26 16:32
本申请实施例提供一种人工智能训练集的获取方法及装置,涉及人工智能技术领域,该人工智能训练集的获取方法包括:获取样本图像;以样本图像为依据进行计算,得到样本图像的哈希值;以预设的数据库和哈希值为依据进行重合判定,得到用于表示数据库中是否包括与哈希值对应的存储数据的判定结果;在判定结果为数据库中不包括与哈希值对应的存储数据时,将样本图像添加至预设训练集,得到人工智能训练集。实施这种实施方式,能够避免人工的参与,从而节约成本、降低资源损耗。

Acquisition method and device of artificial intelligence training set

The embodiment of the application provides a method and device for acquiring the artificial intelligence training set, which relates to the field of artificial intelligence technology. The acquisition method of the artificial intelligence training set includes: acquiring the sample image; calculating based on the sample image to obtain the hashing value of the sample image; determining the coincidence based on the preset database and hash value to obtain the hashing value used to indicate that the Whether to include the decision result of the storage data corresponding to the hash value; when the decision result is that the database does not include the storage data corresponding to the hash value, add the sample image to the preset training set to get the artificial intelligence training set. The implementation of this method can avoid the participation of manpower, thus saving cost and reducing resource loss.

【技术实现步骤摘要】
一种人工智能训练集的获取方法及装置
本申请涉及人工智能
,具体而言,涉及一种人工智能训练集的获取方法及装置。
技术介绍
随着社会的不断发展,人工智能技术也随着不断发展,其中,基于人工智能的图像识别技术也是在不断地更新迭代。然而,在实践中发现,图像识别的先决条件是选取到合适的训练集,由此可见,训练集的选取对图像识别的性能影响很大,而在实践中,目前的训练集筛选方法大多是基于人工观察的,因此,高成本和高资源损耗成为了训练集获取的难题之一。
技术实现思路
本申请实施例的目的在于提供一种人工智能训练集的获取方法及装置,能够避免人工的参与,从而节约成本、降低资源损耗。本申请实施例提供了一种人工智能训练集的获取方法,所述方法包括:获取样本图像;以所述样本图像为依据进行计算,得到所述样本图像的哈希值;以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果;在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设训练集,得到人工智能训练集。在上述实现过程中,该人工智能训练集的获取方法可以优先获取样本集包括的样本图像,其中,上述样本集可以是视频集也可以是图像集,不过不论样本集的类别是什么,样本图像始终都可以从样本集中提取得到,同时,上述的样本图像可以为多幅;在样品图像被获取到之后,根据预设的算法对样品图像进行数字信息的提取,再进一步根据提取得到的数字信息进行哈希值的计算与生成,得到与样本图像对应的哈希值;当每个样本图像都对应存在哈希值之后,可以判断预设的数据库中是否包括新获取到的样本图像的哈希值,如果数据库中不包括上述哈希值,则判断结果为数据库中不包括与上述哈希值对应的图像,进而将上述哈希值和其对应的图片存储至数据库中,使得人工智能训练集存在于上述的数据库中;其中,上述的数据库包括大量样本图像和大量相应的哈希值。可见,实施这种实施方式,能够通过计算机设备来进行样本图像的获取与存储判断,从而能够避免人工的参与,节约成本、降低资源的损耗;同时,通过哈希值的的引入判断,可以提高该方法对样本图像的获取精度,并且在一定程度上提高了计算机的运算效率,因为哈希值的判断较传统的图像判断更为简单;另外,该方法还能够在使用的过程不间断地增加人工智能训练集包括的内容,因此,不论是初次使用还是重复使用,该方法还具有较高的普适性。进一步地,所述获取样本图像的步骤包括:获取与预设品类相对应的初始集;对所述初始集进行图像提取处理得到样本图像。在上述实现过程中,样本图像的获取是基于初始集的,而该初始集则是大数据中的各类具有图像信息的信息集合,其中,该初始集可以包括图像集、视频集等等;在上述的基础上,初始集是具有多种品类的,每种品类的初始集是存在一定差异的,而该步骤限定了初始集是固定品类的,这就使得该方法在使用的时候可以适用于多种品类中的任一种品类,从而使得在该品类下的样本图像的提取更具有针对性,在人工智能训练集获取到之后可以具有更高的针对性与准确性。进一步地,所述以所述样本图像为依据进行计算,得到所述样本图像的哈希值的步骤包括:获取所述样本图像的图像数据;以所述图像数据为依据进行计算,得到所述样本图像的哈希值。在上述实现过程中,该方法可以根据样本图像进行图像数据的获取,实现图像的数据化,从而便于计算机设备进行相应的计算,进而提高该方法被使用时的简便性,并且在人为不可代替的数据处理的基础上,该方法具有更高的效率;另一方面,该方法以图像数据为依据进行计算,得到样本图像对应的哈希值,可见,该方法在使用的过程中不仅仅使用了图像数据,还对图像数据进行了进一步的处理,从而实现了样本图像的二次处理,得到与验本图像对应的标识,即相应的哈希值。由此可见,该方法能够限定哈希值的获取过程,从而提高哈希值的获取方式与映射方式,其中,该种获取方式能够提高哈希值的获取效率和获取精度;同时,该方法还能够通过二次计算的方式对获取到样本图像的标识,可见,该种方法能够提高上述标识,即哈希值的获取精度,还能够保证哈希值在获取之后的使用效果。进一步地,所述以所述图像数据为依据进行计算,得到所述样本图像的哈希值的步骤包括:对所述图像数据进行分辨率缩放处理与灰度处理,得到预处理数据;以所述预处理数据为依据进行计算,得到灰度平均值;以所述灰度平均值为依据遍历比较所述预处理数据中的每个子数据,得到比较结果;以所述比较结果为依据进行计算,得到所述样本图像的哈希值。在上述实现过程中,该方法可以进一步限定哈希值获取的准备工作,即对图像数据进行的分辨率缩放处理与灰度处理,上述的两种处理可以为哈希值的获取提供一种更精确的获取空间,因此可以在避免哈希值存在过分冗余的情况下,提高哈希值的精度;另外,该过程中分辨率缩放处理与灰度处理还可以根据上述的品类进行不同的处理,由此可见,该方法存在多种合理的变化方法,且皆属于该方法的描述之中。其中,图像图像被分辨率缩放处理和灰度处理之后得到的是预处理数据而非哈希值,由此可见,该过程还只是对数据进行一个精度处理的过程,在此之后,具体的灰度平均值的获取与遍历比较法的使用可以得到哈希值的构成子值,在根据多个构成子值进行相应的排列组合或者进一步计算皆可以得到固定的哈希值。由此可见,该哈希值的获取是基于固定的数据处理方式,而该种数据处理方式具有较高的针对性,因此,该种数据处理方式的限定能够提高哈希值的获取精度,并可以使哈希值可以应用于预设的一种较适的使用空间,从而提高人工智能训练集的有效性。进一步地,所述以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果的步骤之后,所述方法还包括:在所述判定结果为所述数据库中包括与所述哈希值对应的存储数据时,删除与所述哈希值对应的样本图像。在上述实现过程中,该方法会对重复的样本图像进行筛选提取与删除,而这其中,这一切的基础是样本图像的哈希值,由此可见,通过对哈希值的使用,还可以对样本图像进行滤除,从而保证人工智能训练集的纯净度,提高人工智能训练集在使用时的有效性。进一步地,所述数据库的数据结构为红黑树。在上述实现过程中,当数据库的数据结构为红黑树时,可以使得哈希值的查找操作可以在更快的查找速度下实现,因此,使用红黑树的数据结构可以提高人工智能训练集的获取效率。进一步地,所述在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设的训练集,得到人工智能训练集的步骤包括:在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,以所述样本图像和预设的纯色确定标准为依据进行纯色确定,得到用于表示所述样本图像是否为纯色图像的确定结果;在所述确定结果为所述样本数据不为纯色图像时,将所述样本图像添加至预设的训练集,得到人工智能训练集。在上述实现过程中,该方法能够在数据本文档来自技高网...

【技术保护点】
1.一种人工智能训练集的获取方法,其特征在于,所述方法包括:/n获取样本图像;/n以所述样本图像为依据进行计算,得到所述样本图像的哈希值;/n以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果;/n在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设训练集,得到人工智能训练集。/n

【技术特征摘要】
1.一种人工智能训练集的获取方法,其特征在于,所述方法包括:
获取样本图像;
以所述样本图像为依据进行计算,得到所述样本图像的哈希值;
以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果;
在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设训练集,得到人工智能训练集。


2.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述获取样本图像的步骤包括:
获取与预设品类相对应的初始集;
对所述初始集进行图像提取处理得到样本图像。


3.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述以所述样本图像为依据进行计算,得到所述样本图像的哈希值的步骤包括:
获取所述样本图像的图像数据;
以所述图像数据为依据进行计算,得到所述样本图像的哈希值。


4.根据权利要求3所述的人工智能训练集的获取方法,其特征在于,所述以所述图像数据为依据进行计算,得到所述样本图像的哈希值的步骤包括:
对所述图像数据进行分辨率缩放处理与灰度处理,得到预处理数据;
以所述预处理数据为依据进行计算,得到灰度平均值;
以所述灰度平均值为依据遍历比较所述预处理数据中的每个子数据,得到比较结果;
以所述比较结果为依据进行计算,得到所述样本图像的哈希值。


5.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果的步骤之后,所述方法还包括:
在所述判定结果为所述数据库中包括与所述哈希值对应的存储数据时,删除与所述哈希值对应的样本图像。


6.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述数据库的数据结构为红黑树。


7.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设的训练集,得到人工智能训练集的步骤包括:
在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,以所述样本图像和预设的纯色确定标准为依据进行纯色确定,得到用于表示所述样本图像是否为纯色图像的确定结果;
在所述确定结果为所述样本数据不为纯色图像时,将所述样本图像添加至预设的训练集,得到人工智能训练集。


8.根据权利要求7所述的人工智能训练集的获取方法,其特征在于,所述以所...

【专利技术属性】
技术研发人员:洪旭东唐诗
申请(专利权)人:广州虎牙科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1