基于缺陷分析的图像识别软件测试数据增强方法及装置制造方法及图纸

技术编号：30227318 阅读：64 留言：0更新日期：2021-09-29 09:53

本发明专利技术公开了一种基于缺陷分析的图像识别软件测试数据增强方法及装置，步骤如下：收集待测图像识别软件用户反馈的自然语言文本形式的数据，以构造统一的用户反馈数据集；构建用户反馈分类模型，提取图像识别功能相关的缺陷报告；构建所述缺陷报告中的实体对；将描述相似缺陷问题的实体对进行分组，选取实体对，构造测试上下文集合；依据所述测试上下文集合，构造满足图像识别软件的通用和典型数据蜕变规则；依据所述数据蜕变规则，将原始测试数据进行数据蜕变，生成衍生测试数据。本发明专利技术基于数据蜕变技术实现测试数据的增强，挖掘与图像识别功能缺陷相关的用户反馈文本，利用自然语言处理和深度学习技术，提炼描述功能缺陷的关键信息。的关键信息。的关键信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于缺陷分析的图像识别软件测试数据增强方法及装置

[0001]本专利技术属于智能软件的测试
，具体涉及一种基于缺陷分析的图像识别软件测试数据增强方法及装置。

技术介绍

[0002]随着人工智能技术的不断发展，深度学习近年来被广泛应用于各种借助机器智能提高效率的行业，也包括自动驾驶、医疗诊断、飞行器防碰撞系统等安全攸关领域，例如，以图像识别等为代表的智能软件已经在自动驾驶系统领域得到了初步应用。然而，这类智能软件在快速发展的同时，缺陷问题也日益显著。缺陷是软件质量的对立面，威胁着软件质量，也影响产品的商业价值。
[0003]软件测试是发现软件错误，提高质量的关键手段之一。智能软件在传统软件的基础上融入了智能功能，给测试任务带来了问题与挑战，同时也提出了较大的市场需要和研究需求。由于大数据技术和各种机器学习模型的广泛使用，智能软件具有不确定性和概率性、预测应用场景的复杂性和困难性。以智能化的图像识别软件为例，当前针对图像识别软件测试面临的主要困境包括：
[0004](1)软件版本更新演化频繁，对于测评机构而言，缺乏足够的测试数据，部分测试数据还依赖于研制方的训练数据，导致缺陷发现能力不高，难以适应智能软件快速迭代的质量保证要求。
[0005](2)尽管部分测试数据可能检测出图像识别软件的功能缺陷，但无法正确模拟和仿真目标的真实、多样的特征，导致测试结果的可信度受到影响。
[0006]测试数据增强技术是指对现有的测试用例集在测试覆盖率和错误检测率等方面的提升，以全面覆盖测试需求，包括数...

【技术保护点】

【技术特征摘要】
1.一种基于缺陷分析的图像识别软件测试数据增强方法，其特征在于，步骤如下：1)收集待测图像识别软件用户反馈的自然语言文本形式的数据，并对所述收集到的数据进行预处理，以构造统一的用户反馈数据集；2)构建用户反馈分类模型，提取图像识别功能相关的缺陷报告；3)构建所述缺陷报告中的实体对；4)将描述相似缺陷问题的实体对进行分组，选取实体对，构造测试上下文集合；5)依据所述测试上下文集合，构造满足图像识别软件的通用和典型数据蜕变规则；6)依据所述数据蜕变规则，将原始测试数据进行数据蜕变，生成衍生测试数据。2.根据权利要求1所述的基于缺陷分析的图像识别软件测试数据增强方法，其特征在于，所述步骤2)具体包括：将用户反馈数据集中的句子分为功能请求、缺陷报告、功能评价和其他四大类。3.根据权利要求2所述的基于缺陷分析的图像识别软件测试数据增强方法，其特征在于，所述步骤2)具体包括：21)采用自然语言处理方法对用户反馈数据集中的句子进行预处理，利用TF
‑
IDF算法计算句子的N
‑
gram的词频和逆文档词频值，将句子进行向量表示；22)定义用户反馈分类法，对用户反馈数据集中的句子进行标注，其中，功能请求、缺陷报告和功能评价三类均与图像识别功能相关，与图像识别功能不相关的句子包含在其他类中；23)将向量形式的用户反馈数据集中的句子作为输入，采用机器学习分类算法，构建用户反馈分类模型，提取图像识别功能相关的缺陷报告。4.根据权利要求3所述的基于缺陷分析的图像识别软件测试数据增强方法，其特征在于，所述步骤3)具体包括：31)将缺陷报告分为训练集和测试集；采用BIO三标记法标注训练集句子中的实体，其中，缺陷报告类句子中的实体被分为：缺陷问题、缺陷上下文和其他；32)采用预训练BERT语言模型，获取缺陷报告类句子中的文本特征，作为输入，训练CRF与...

【专利技术属性】
技术研发人员：陶传奇，郭虹静，曹冬玉，黄志球，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人