基于缺陷分析的图像识别软件测试数据增强方法及装置制造方法及图纸

技术编号:30227318 阅读:64 留言:0更新日期:2021-09-29 09:53
本发明专利技术公开了一种基于缺陷分析的图像识别软件测试数据增强方法及装置,步骤如下:收集待测图像识别软件用户反馈的自然语言文本形式的数据,以构造统一的用户反馈数据集;构建用户反馈分类模型,提取图像识别功能相关的缺陷报告;构建所述缺陷报告中的实体对;将描述相似缺陷问题的实体对进行分组,选取实体对,构造测试上下文集合;依据所述测试上下文集合,构造满足图像识别软件的通用和典型数据蜕变规则;依据所述数据蜕变规则,将原始测试数据进行数据蜕变,生成衍生测试数据。本发明专利技术基于数据蜕变技术实现测试数据的增强,挖掘与图像识别功能缺陷相关的用户反馈文本,利用自然语言处理和深度学习技术,提炼描述功能缺陷的关键信息。的关键信息。的关键信息。

【技术实现步骤摘要】
基于缺陷分析的图像识别软件测试数据增强方法及装置


[0001]本专利技术属于智能软件的测试
,具体涉及一种基于缺陷分析的图像识别软件测试数据增强方法及装置。

技术介绍

[0002]随着人工智能技术的不断发展,深度学习近年来被广泛应用于各种借助机器智能提高效率的行业,也包括自动驾驶、医疗诊断、飞行器防碰撞系统等安全攸关领域,例如,以图像识别等为代表的智能软件已经在自动驾驶系统领域得到了初步应用。然而,这类智能软件在快速发展的同时,缺陷问题也日益显著。缺陷是软件质量的对立面,威胁着软件质量,也影响产品的商业价值。
[0003]软件测试是发现软件错误,提高质量的关键手段之一。智能软件在传统软件的基础上融入了智能功能,给测试任务带来了问题与挑战,同时也提出了较大的市场需要和研究需求。由于大数据技术和各种机器学习模型的广泛使用,智能软件具有不确定性和概率性、预测应用场景的复杂性和困难性。以智能化的图像识别软件为例,当前针对图像识别软件测试面临的主要困境包括:
[0004](1)软件版本更新演化频繁,对于测评机构而言,缺乏足够的测试数据,部分测试数据还依赖于研制方的训练数据,导致缺陷发现能力不高,难以适应智能软件快速迭代的质量保证要求。
[0005](2)尽管部分测试数据可能检测出图像识别软件的功能缺陷,但无法正确模拟和仿真目标的真实、多样的特征,导致测试结果的可信度受到影响。
[0006]测试数据增强技术是指对现有的测试用例集在测试覆盖率和错误检测率等方面的提升,以全面覆盖测试需求,包括数据蜕变、数据变异等方法。数据蜕变的思想来源于蜕变测试,当前被广泛应用于智能软件的测试中。数据蜕变根据待测智能软件的功能属性,设计数据蜕变规则,对原始测试数据进行蜕变,生成衍生测试数据,增强测试数据的缺陷检测能力。当前智能软件的测试数据增强主要以随意的方式得到数据蜕变规则,领域专家甚至也认为获取数据蜕变规则较为困难,缺乏数据蜕变规则构造的指导,导致数据蜕变的效率受限,因此,如何设计一组有效的数据蜕变规则是揭露智能功能缺陷的关键。
[0007]智能软件的测试是为了在每一次软件演化中,进一步改进软件产品的质量,在日益激烈的市场竞争中,用户反馈的缺陷报告对于智能软件的维护与演化更具实际意义。用户反馈的自然语言文本作为智能软件用户使用体验的重要反馈媒介,包含大量真实、丰富的智能功能缺陷相关的描述信息,例如智能功能的实际输出行为与用户期望的行为表现不一致,失败用例的上下文信息等,可以为缺陷重现所用。然而用户数据具有海量性、多样性、非结构化等特点,同时也存在大量冗余、无价值的信息,如何利用用户反馈辅助智能功能的缺陷分析和测试活动仍然面临挑战。

技术实现思路

[0008]针对于上述现有技术的不足,本专利技术的目的在于提供一种基于缺陷分析的图像识别软件测试数据增强方法及装置,以克服现有技术中智能化的图像识别软件存在的缺乏足够的、可信的测试数据的问题。本专利技术基于数据蜕变技术实现测试数据的增强,挖掘与图像识别功能缺陷相关的用户反馈文本,利用自然语言处理和深度学习技术,提炼描述功能缺陷的关键信息;分析缺陷发生时的上下文信息,从中抽取关键上下文,并进一步分析测试上下文间的优先级关系,构成测试上下文集合。基于测试上下文及其优先级关系,设计针对图像识别软件的通用和典型数据蜕变规则,对原始测试数据进行数据蜕变,生成大量衍生测试数据,从而增强原始测试数据的真实性和多样性。
[0009]为达到上述目的,本专利技术采用的技术方案如下:
[0010]本专利技术的一种基于缺陷分析的图像识别软件测试数据增强方法,步骤如下:
[0011]1)收集待测图像识别软件用户反馈的自然语言文本形式的数据,并对所述收集到的数据进行预处理,以构造统一的用户反馈数据集;
[0012]2)构建用户反馈分类模型,提取图像识别功能相关的缺陷报告;
[0013]3)构建所述缺陷报告中的实体对;
[0014]4)将描述相似缺陷问题的实体对进行分组,选取实体对,构造测试上下文集合;
[0015]5)依据所述测试上下文集合,构造满足图像识别软件的通用和典型数据蜕变规则;
[0016]6)依据所述数据蜕变规则,将原始测试数据进行数据蜕变,生成衍生测试数据。
[0017]优选地,所述步骤2)具体包括:将用户反馈数据集中的句子分为功能请求、缺陷报告、功能评价和其他四大类。
[0018]优选地,所述步骤2)具体包括:
[0019]21)采用自然语言处理方法对用户反馈数据集中的句子进行预处理,利用TF

IDF算法计算句子的N

gram的词频和逆文档词频值,将句子进行向量表示;
[0020]22)定义用户反馈分类法,对用户反馈数据集中的句子进行标注,其中,功能请求、缺陷报告和功能评价三类均与图像识别功能相关,与图像识别功能不相关的句子包含在其他类中;
[0021]23)将向量形式的用户反馈数据集中的句子作为输入,采用机器学习分类算法,构建用户反馈分类模型,提取图像识别功能相关的缺陷报告。
[0022]优选地,所述步骤3)具体包括:
[0023]31)将缺陷报告分为训练集和测试集;采用BIO三标记法标注训练集句子中的实体,其中,缺陷报告类句子中的实体被分为:缺陷问题、缺陷上下文和其他;
[0024]32)采用预训练BERT语言模型,获取缺陷报告类句子中的文本特征,作为输入,训练CRF与BiLSTM相结合的模型;
[0025]33)利用训练后的命名实体识别模型对测试集中的缺陷报告类句子进行实体识别,抽取其中表示图像识别功能缺陷问题和缺陷上下文的实体,构建<缺陷问题

上下文>实体对。
[0026]优选地,所述步骤4)具体包括:
[0027]41)采用聚类算法将描述相似缺陷问题的<缺陷问题

上下文>实体对进行分组,将
相似的实体对划分至同一簇中;
[0028]42)选取描述图像识别功能未能成功或准确完成其目标的缺陷问题所对应的实体对簇,提取其中的上下文实体;依据上下文实体出现的次数分析测试上下文的优先级关系,构造图像识别功能的测试上下文集合。
[0029]优选地,所述步骤5)具体包括:依据步骤4)中构造的测试上下文集合,构造满足图像识别软件的通用和典型数据蜕变规则,其中,通用数据蜕变规则适用于各领域的图像识别软件,满足数据蜕变规则的可复用;典型数据蜕变规则是待测图像识别软件特有的,用于刻画其特征和属性,测试上下文间的优先级关系以用于表示数据蜕变规则间的优先级关系。
[0030]优选地,所述步骤6)具体包括:针对待测图像识别软件,预先准备原始的图像,作为原始测试数据,依据数据蜕变规则及其优先级关系,通过图像处理、人工拍摄或从网站上收集,生成或辅助测试人员构造衍生测试数据集,模拟现实中图像识别功能的上下文环境,增本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于缺陷分析的图像识别软件测试数据增强方法,其特征在于,步骤如下:1)收集待测图像识别软件用户反馈的自然语言文本形式的数据,并对所述收集到的数据进行预处理,以构造统一的用户反馈数据集;2)构建用户反馈分类模型,提取图像识别功能相关的缺陷报告;3)构建所述缺陷报告中的实体对;4)将描述相似缺陷问题的实体对进行分组,选取实体对,构造测试上下文集合;5)依据所述测试上下文集合,构造满足图像识别软件的通用和典型数据蜕变规则;6)依据所述数据蜕变规则,将原始测试数据进行数据蜕变,生成衍生测试数据。2.根据权利要求1所述的基于缺陷分析的图像识别软件测试数据增强方法,其特征在于,所述步骤2)具体包括:将用户反馈数据集中的句子分为功能请求、缺陷报告、功能评价和其他四大类。3.根据权利要求2所述的基于缺陷分析的图像识别软件测试数据增强方法,其特征在于,所述步骤2)具体包括:21)采用自然语言处理方法对用户反馈数据集中的句子进行预处理,利用TF

IDF算法计算句子的N

gram的词频和逆文档词频值,将句子进行向量表示;22)定义用户反馈分类法,对用户反馈数据集中的句子进行标注,其中,功能请求、缺陷报告和功能评价三类均与图像识别功能相关,与图像识别功能不相关的句子包含在其他类中;23)将向量形式的用户反馈数据集中的句子作为输入,采用机器学习分类算法,构建用户反馈分类模型,提取图像识别功能相关的缺陷报告。4.根据权利要求3所述的基于缺陷分析的图像识别软件测试数据增强方法,其特征在于,所述步骤3)具体包括:31)将缺陷报告分为训练集和测试集;采用BIO三标记法标注训练集句子中的实体,其中,缺陷报告类句子中的实体被分为:缺陷问题、缺陷上下文和其他;32)采用预训练BERT语言模型,获取缺陷报告类句子中的文本特征,作为输入,训练CRF与...

【专利技术属性】
技术研发人员:陶传奇郭虹静曹冬玉黄志球
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1