一种基于多模态数据的面向手写中文的性格识别方法技术

技术编号:30299802 阅读:17 留言:0更新日期:2021-10-09 22:29
本发明专利技术公开了一种基于多模态数据的面向手写中文的性格识别方法,其特点是根据手写中文的结构分析写作者的性格。该方法包括:抽取手写中文的字符信息(四方轮廓类别、字体大小程度、字体倾斜程度、字间距);从完整的手写中文图片以及按长度三等份裁剪的手写中文图片中抽取章法信息;将手写中文转换为纯文本,抽取CLIWC特征作为文本信息;融合手写中文的字符信息、章法信息和文本信息,进行写作者的性格预测。本发明专利技术与现有技术相比,性格预测的准确率更高,预测结果的可解释性更强。并且本发明专利技术适用于任何手写中文的场景。明适用于任何手写中文的场景。明适用于任何手写中文的场景。

【技术实现步骤摘要】
一种基于多模态数据的面向手写中文的性格识别方法


[0001]本专利技术涉及图像处理和自然语言处理领域,具体来说,涉及一种基于多模态数据的面向手写中文的性格识别方法。

技术介绍

[0002]性格被定义为个体对现实的态度以及其相应行为方式的综合表现,是个体最重要的属性之一。在教育领域,由于学生的学习动机、对教学风格的偏好等会受到他们性格的影响,因此性格识别能够帮助老师了解学生对学习的潜在个性需求,从而因材施教、为学生提供更合适的学习方法,提高学生的学习表现和学习满意度;在电商领域,由于性格会影响用户的决策行为,并且性格揭露了用户的偏好信息,因此性格识别能够帮助商家为用户提供合适的商品,从而提高用户的购买率、增加商家的收益;在职场领域,性格识别能够帮助公司分析求职者的抗压能力等,从而筛选出优秀的求职者;在借贷领域,性格识别能够帮助公司分析借贷者是否说谎,从而过滤掉不合格的借贷者。
[0003]笔迹心理学家表示,笔迹(即,手写文字)是对个体心理无意识的暴露,可以全面反映个体的心理特征。例如,偏向于写正方形字体的人,通常是遵守规则、原则性强的,而偏向于写长方形字体的人,则做事灵活,喜欢追求新奇。偏向于写大字的人,一般富有冒险精神、善于表现自我。而偏向于写小字的人,更加周密严谨、有钻研精神。
[0004]目前的研究中,研究者们通常基于手写英文进行个体的自动性格识别。例如,分析个体手写的大写字母和小写字母、分析个体手写的特殊字母(“d”、“i”、“t”、“y”)。但是研究者们忽视了对手写中文的使用。有别于英文,中文作为中国人的母语,是特殊的方块字,字体结构对于反应中国人性格具有天然优势。

技术实现思路

[0005]本专利技术的目的在于利用手写中文的结构特点,提供了一种基于多模态数据的面向手写中文的性格识别方法,从手写中文中抽取字符信息、章法信息和文本信息,并将这些多模态数据融合用于分析写作者的性格。
[0006]实现本专利技术目的的具体技术方案是:
[0007]一种基于多模态数据的面向手写中文的性格识别方法,特点是根据手写中文的结构特点识别写作者的性格。该方法包括以下具体步骤:
[0008]步骤1:预处理
[0009]将手写中文图片进行缩放、裁剪,达至规定尺寸(长不小于640,宽不小于480);再将手写中文图片转换成二值化图像,记为Img

0;
[0010]步骤2:获取字符信息
[0011]将Img

0进行字符切割,获取字符集h={h1,h2,......,h
k
};k表示字符总数;
[0012]对于每个字符h
i
(1≤i≤k):
[0013](1)判断h
i
的四方轮廓类别o
i
,是正方形即高度等于宽度、长方形即高度大于宽度、
还是扁方形即高度小于宽度;
[0014](2)计算h
i
的字体大小s
i

[0015](3)计算h
i
的字体倾斜角度a
i

[0016]对o={o1,o2,......,o
k
},计算其中正方形字体的占比、长方形字体的占比以及扁方形字体的占比,作为字符集的四方轮廓信息O;
[0017]以5mm*5mm为标准大小,对s={s1,s2,......,s
k
},计算其中字体大于标准大小的占比、字体小于标准大小的占比,作为字符集的大小程度信息S;
[0018]以90
°
为标准角度,字体倾斜角度大于90
°
记为字体向左倾斜,字体倾斜角度小于90
°
记为字体向右倾斜。对a={a1,a2,......,a
k
},计算其中字体向左倾斜的占比、字体向右倾斜的占比,作为字符集的倾斜程度信息A;
[0019]对于每个字符h
i
(2≤i≤k),计算h
i
相对于h
i
‑1的水平距离d
i,i
‑1。对d={d
1,0
,d
2,1
,......,d
k,k
‑1}计算算术平均数,作为字符集的字间距信息D;
[0020]将字符集的四方轮廓信息O、大小程度信息S、倾斜程度信息A和字间距信息D组合为向量C,作为Img

0的字符信息;
[0021]步骤2:获取章法信息
[0022]将Img

0送入卷积神经网络(Convolutional Neural Networks,CNN),得到全区章法表征I0;
[0023]将Img

0按长度裁剪为三等份,分别为上区手写中文图片Img

1、中区手写中文图片Img

2和下区手写中文图片Img

3;
[0024]将Img

1送入CNN,并使用I0作为注意力机制,得到上区章法表征I1;
[0025]将Img

2送入CNN,并使用I0作为注意力机制,得到中区章法表征I2;
[0026]将Img

3送入CNN,并使用I0作为注意力机制,得到下区章法表征I3;
[0027]将I0、I1、I2和I3拼接得到I,作为Img

0的章法信息;
[0028]步骤3:获取文本信息
[0029]通过光学字符识别(Optical Character Recognition,OCR),将Img

0中的手写中文转换成纯文本Z;
[0030]从纯文本Z中抽取CLIWC(ChineseLinguistic Inquiry and Word Count)特征,记为T,作为手写中文的文本信息;
[0031]步骤4:性格预测
[0032]将字符信息C、章法信息I、文本信息T拼接,经过线性计算得到结果F。F是n维向量,每一维表示写作者在对应性格特质上的得分,n表示性格特质总数。具体公式如公式(1)所示:
[0033]F=W
f
[C;I;T]+b
f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0034]其中W
f
是权重矩阵,b
f
是偏置项。
[0035]本专利技术的有益效果在于:
[0036]本专利技术相比现有技术,具有更高的准确率和更强的可解释性。本专利技术充分使用了手写中文的字符信息、章法信息和文本信息,从而能够更好地理解写作者的性格,并对预测结果给出更加合理的解释。本专利技术适用于任何手写中文的场景。
附图说明
[0037]图1是本专利技术的流程图。
具体实施方式
[0038]结合以下具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态数据的面向手写中文的性格识别方法,其特征在于,该方法包括以下具体步骤:步骤1:预处理将手写中文图片进行缩放、裁剪,达至像素规定尺寸即长至少640,宽至少480);再将手写中文图片转换成二值化图像,记为Img

0;步骤2:获取字符信息将Img

0进行字符切割,获取字符集h={h1,h2,......,h
k
};k表示字符总数;对于每个字符h
i
(1≤i≤k):(1)判断h
i
的四方轮廓类别o
i
,是正方形即高度等于宽度、长方形即高度大于宽度、还是扁方形即高度小于宽度;(2)计算h
i
的字体大小s
i
;(3)计算h
i
的字体倾斜角度a
i
;对o={o1,o2,......,o
k
},计算其中正方形字体的占比、长方形字体的占比以及扁方形字体的占比,作为字符集的四方轮廓信息O;以5mm*5mm为标准大小,对s={s1,s2,......,s
k
},计算其中字体大于标准大小的占比、字体小于标准大小的占比,作为字符集的大小程度信息S;以90
°
为标准角度,字体倾斜角度大于90
°
记为字体向左倾斜,字体倾斜角度小于90
°
记为字体向右倾斜;对a={a1,a2,......,a
k
},计算其中字体向左倾斜的占比、字体向右倾斜的占比,作为字符集的倾斜程度信息A;对于每个字符h
i
(2≤i≤k),计算h
i
相对于h
i
‑1的水平距离d
i,i

【专利技术属性】
技术研发人员:吴雯纪雨胡谊贺樑夏聪康亮
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1