一种量表答案提取算法制造技术

技术编号:39853293 阅读:10 留言:0更新日期:2023-12-30 12:53
本发明专利技术公开了一种量表答案提取算法,具体包括以下步骤:

【技术实现步骤摘要】
一种量表答案提取算法


[0001]本专利技术涉及量表答案提取
,具体为一种量表答案提取算法


技术介绍

[0002]问卷是为了搜集人们对某个特定问题的态度

价值观

观点或信念等信息而设计的一系列问题,能将有关问题组合起来

其中,量表是问卷的一种体现方式

[0003]通常,研究者会把问卷打印成纸质形式分发

根据研究需要,每一张问卷可能会存在多个量表,题目数量约
70

150
以上

受测者将按照指导语提示作答,在答题区内勾画

根据研究需要,可能会邀请几百人到几千人进行调查

[0004]从数据回收角度看,由于题量大

人数较多,通常需要耗费大量精力和时间进行录入

且在录入过程中,操作者可能会出现“看走眼”、“没保存”、“忘记录没录”等的情况,降低了数据录入质量

[0005]除人工录入外,现有自动化产品通常要求对问卷进行特殊设计

例如:需要在对应位置增加识别块,对存量问卷

新编制问卷要求较高

在设计上,需要对答题规则进行严格限定,对特殊题型

特殊情况支持较差

[0006]针对现有技术中存在的情况,需要对量表答案录入的方式进行改进


技术实现思路

[0007]针对现有调查问卷录入技术的不足,本专利技术提供了一种量表答案提取算法,提升量表答案数据提取效果,包括以下步骤:
[0008]S1、
读入图像;该步骤通过多种形式输入图像,如摄像头拍照

推流

直接传入参数等;
[0009]S2、
图像矫正;该步骤将裁切背景

删除多余边框痕迹,矫正图形;与步骤
S1
连接;
[0010]S3、
量表块提取:该步骤将各个量表从问卷图像中分离;与步骤
S2
连接;
[0011]S4、
题项分割:该步骤将依次根据行分割题项;与步骤
S3
连接;
[0012]S5、
答案识别:该步骤将根据题目特点,采用不同对应方式识别答案;与步骤
S4
连接;
[0013]S6、
结果输出:该步骤可按照用户的需求保存为各种格式的数据结果;与步骤
S5
连接

[0014]在一些实施方式中,所述
S2
内,用户可根据图像状况,自行选择是否进行旋转

裁剪,并通过卷积识别最长宽

高的边长,寻找最大面积的矩形

该步通过裁切变换,缓解了拍照角度歪曲

纸张折叠导致图片不规整等问题,实现了自动识别图像

校正纸张的有益效果

[0015]在一些实施方式中,所述
S3
内,利用卷积算法对图像中横线上的点提取坐标,并在删除离群点及合并相近点后,通过判断相邻的两点间的距离判断是否为新一行起点;在此基础上,利用卷积算法对图像中横线提取竖线,判断一个量表块中是否包含多个量表;用户
可根据情况手动调整量表块识别结果

该步能够识别多种量表形式,实现了不需要问卷特殊排版的有益效果

[0016]在一些实施方式中,所述
S5
内,对于勾选类题项,经多次卷积运算后,将题目变化为面积较大

密集相连的矩形,将作答区变换为稀疏线条的效果图,进而使用聚类算法区分作答区及答案区,通过计算每个题项轮廓的面积变化程度,可获得单选或多选答案;若题目面积整体变化不大且较小,则识别为未答;若答案存在分隔符,其宽

高及面积通常为所有作答区拟合矩形对应指标的统计学上的异常值,可通过异常项排除分隔符;用户可调整相关识别指标

该步通过卷积

聚类,达到了快速

灵活及准确识别勾选类题目答案的有益效果

[0017]在一些实施方式中,所述
S5
内,对于非勾选类客观题项,经矫正后,采用比对用户预先指定的作答模板获取答案,通过判断图片相似度

色块相差等情况确定作答分数

该步通过匹配计算的方式,达到了快速

灵活及准确识别非勾选类题目答案的有益效果

[0018]在一些实施方式中,所述
S5
内,对于特殊类题目,可采用第三方接口进行判断读取

该步通过允许第三方开发的形式,达到扩展识别可能性的有益效果

[0019]在一些实施方式中,所述
S5
内,
S1

S6
将根据实际情况会进行一次或多次,以充分提取量表

[0020]在一些实施方式中,所述
S3

S5
内,卷积算法将从输入图像中获取一个像素点,该输入图像由多个像素组成,表示为
I(x,y)。
其中,
(x,y)
为像素坐标

卷积核由一组可调节的权重参数表示,表示为
K(i,j)

(i,j)
为卷积核中的权重参数的索引

[0021]对于图像中的每个像素位置
(x',y')
,都有下式操作:
[0022]O(x',y')

ΣΣ
[I(x

i,y

j)*K(i,j)][0023]其中,
O(x',y')
表示卷积结果,
ΣΣ
表示双重求和,
i

j
分别遍历卷积核的所有权重参数

用户和算法可以调整卷积核的权重参数
K(i,j)
,以优化输出图像效果

[0024]在一些实施方式中,所述
S3

S5
内,删除离群点

判断新一行起点及颜色校正等步骤可结合统计学方法进行

具体步骤包括:
[0025]a)
从输入中获取一组像素或数据值
I(x,y)
,表示某一个点或某一组点
(x,y)
经过某种运算后,获得特征值
I(x,y)。
[0026]b)
对于每个特征值
I(x,y)

Z
分数
Z(x,y)
,都有:
...

【技术保护点】

【技术特征摘要】
1.
一种量表答案提取算法,其特征在于,包括以下步骤:
S1、
读入图像;该步骤通过多种形式输入图像;
S2、
图像矫正;该步骤将裁切背景

删除多余边框痕迹,矫正图形;与步骤
S1
连接;
S3、
量表块提取:该步骤将各个量表从问卷图像中分离;与步骤
S2
连接;
S4、
题项分割:该步骤将依次根据行分割题项;与步骤
S3
连接;
S5、
答案识别:该步骤将根据题目特点,采用差异化对应方式识别答案;与步骤
S4
连接;
S6、
结果输出:该步骤可按照用户的需求保存为各种格式的数据结果;与步骤
S5
连接
。2.
如权利要求1所述的一种量表答案提取算法,其特征在于:所述步骤
S2
中,用户根据图像状况,自行选择是否进行旋转

裁剪,并通过卷积识别

裁切最长宽

高的边长,寻找最大面积的矩形
。3.
如权利要求1所述的一种量表答案提取算法,其特征在于:所述步骤
S3
中,包括:利用卷积算法对图像中横线上的点提取坐标,并在删除离群点及合并相近点后,通过判断相邻的两点间的距离判断是否为新一行起点;在此基础上,利用卷积算法对图像中横线提取竖线,判断一个量表块中是否包含多个量表;用户可根据情况手动调整量表块识别结果
。4.
如权利要求1所述的一种量表答案提取算法,其特征在于:所述步骤
S5
中,对于勾选类题项,经多次卷积运算后,将题目变化为面积较大

密集相连的矩形,将作答区变换为稀疏线条的效果图,进而使用聚类算法区分作答区及答案区,通过计算每个题项轮廓的面积变化程度,可获得单选或多选答案
。5.
如权利要求1所述的一种量表答案提取算法,其特征在于:所述步骤
S5
中,对于非勾选类客观题项,经矫正后,采用比对用户预先指定的作答模板获取答案,通过判断包括图片相似度

色块相差情况确定作答分数
。6.
如权利要求1所述的一种量表答案提取算法,其特征在于:所述步骤
S5
中,对于特殊类题项,采用第三方接口进行判断读取
。7.
如权利要...

【专利技术属性】
技术研发人员:张东篱曾练平夏宇肖媛妮谭江黄松
申请(专利权)人:贵州师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1