The embodiment of the application provides a method and device for acquiring the artificial intelligence training set, which relates to the field of artificial intelligence technology. The acquisition method of the artificial intelligence training set includes: acquiring the sample image; calculating based on the sample image to obtain the hashing value of the sample image; determining the coincidence based on the preset database and hash value to obtain the hashing value used to indicate that the Whether to include the decision result of the storage data corresponding to the hash value; when the decision result is that the database does not include the storage data corresponding to the hash value, add the sample image to the preset training set to get the artificial intelligence training set. The implementation of this method can avoid the participation of manpower, thus saving cost and reducing resource loss.
【技术实现步骤摘要】
一种人工智能训练集的获取方法及装置
本申请涉及人工智能
,具体而言,涉及一种人工智能训练集的获取方法及装置。
技术介绍
随着社会的不断发展,人工智能技术也随着不断发展,其中,基于人工智能的图像识别技术也是在不断地更新迭代。然而,在实践中发现,图像识别的先决条件是选取到合适的训练集,由此可见,训练集的选取对图像识别的性能影响很大,而在实践中,目前的训练集筛选方法大多是基于人工观察的,因此,高成本和高资源损耗成为了训练集获取的难题之一。
技术实现思路
本申请实施例的目的在于提供一种人工智能训练集的获取方法及装置,能够避免人工的参与,从而节约成本、降低资源损耗。本申请实施例提供了一种人工智能训练集的获取方法,所述方法包括:获取样本图像;以所述样本图像为依据进行计算,得到所述样本图像的哈希值;以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果;在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设训练集,得到人工智能训练集。在上述实现过程中,该人工智能训练集的获取方法可以优先获取样本集包括的样本图像,其中,上述样本集可以是视频集也可以是图像集,不过不论样本集的类别是什么,样本图像始终都可以从样本集中提取得到,同时,上述的样本图像可以为多幅;在样品图像被获取到之后,根据预设的算法对样品图像进行数字信息的提取,再进一步根据提取得到的数字信息进行哈希值的计算与生 ...
【技术保护点】
1.一种人工智能训练集的获取方法,其特征在于,所述方法包括:/n获取样本图像;/n以所述样本图像为依据进行计算,得到所述样本图像的哈希值;/n以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果;/n在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设训练集,得到人工智能训练集。/n
【技术特征摘要】
1.一种人工智能训练集的获取方法,其特征在于,所述方法包括:
获取样本图像;
以所述样本图像为依据进行计算,得到所述样本图像的哈希值;
以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果;
在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设训练集,得到人工智能训练集。
2.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述获取样本图像的步骤包括:
获取与预设品类相对应的初始集;
对所述初始集进行图像提取处理得到样本图像。
3.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述以所述样本图像为依据进行计算,得到所述样本图像的哈希值的步骤包括:
获取所述样本图像的图像数据;
以所述图像数据为依据进行计算,得到所述样本图像的哈希值。
4.根据权利要求3所述的人工智能训练集的获取方法,其特征在于,所述以所述图像数据为依据进行计算,得到所述样本图像的哈希值的步骤包括:
对所述图像数据进行分辨率缩放处理与灰度处理,得到预处理数据;
以所述预处理数据为依据进行计算,得到灰度平均值;
以所述灰度平均值为依据遍历比较所述预处理数据中的每个子数据,得到比较结果;
以所述比较结果为依据进行计算,得到所述样本图像的哈希值。
5.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述以预设的数据库和所述哈希值为依据进行重合判定,得到用于表示所述数据库中是否包括与所述哈希值对应的存储数据的判定结果的步骤之后,所述方法还包括:
在所述判定结果为所述数据库中包括与所述哈希值对应的存储数据时,删除与所述哈希值对应的样本图像。
6.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述数据库的数据结构为红黑树。
7.根据权利要求1所述的人工智能训练集的获取方法,其特征在于,所述在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,将所述样本图像添加至预设的训练集,得到人工智能训练集的步骤包括:
在所述判定结果为所述数据库中不包括与所述哈希值对应的存储数据时,以所述样本图像和预设的纯色确定标准为依据进行纯色确定,得到用于表示所述样本图像是否为纯色图像的确定结果;
在所述确定结果为所述样本数据不为纯色图像时,将所述样本图像添加至预设的训练集,得到人工智能训练集。
8.根据权利要求7所述的人工智能训练集的获取方法,其特征在于,所述以所...
【专利技术属性】
技术研发人员:洪旭东,唐诗,
申请(专利权)人:广州虎牙科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。