本发明专利技术公开了一种毛笔书法字检索方法。包括如下步骤:(1)剪去数据库中与用户所提交的样本字没有相似可能性的大部分书法字;(2)将剩余的候选书法字与样本字进行匹配,给出匹配值;(3)按匹配值从小到大顺序排列,根据书法字号取出相应的原始书法字图像,生成可视的结果;(4)用户可用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的方式检索书法字。本发明专利技术的有益效果是:解决了书法字不能采用目前的光学字符识别技术识别成文本从而进行检索的问题,为书法爱好者提供展现同一汉字不同书法风格的艺术美;为历史学者提供检索描述历史文化、历史事件的历史书法内容提供工具;为数字图书馆应用提供数字书法的检索工具。
【技术实现步骤摘要】
本专利技术涉及数字图像检索,尤其涉及一种。
技术介绍
中华民族五千年文化留下了许多优秀的书法作品,如王羲之的《兰亭集序》,颜真卿的《多宝塔》。这些原始作品每件都是唯一的,先前存在于纸张、绢丝、或者石头上,因其容易破损而被保护起来,存放在博物馆里,不允许大众随意翻阅。书法作品的数字化和网络存储为历史书法作品提供了第二存储介质,有助于让广大人民群众方便的欣赏和理解民族文化。因此,书法作品是具有中国特色的数字图书馆工程的重要组成部分。然而,目前Internet上的书法作品的检索功能只是针对作品名称、作者、朝代、出版地等已标注的元数据信息进行检索,即最小可检索单位是书法作品,而不能检索单个书法字。对书法字进行检索的一种直观的实现方法是手工标注每个书法字。然而,书法字标注不仅费时费力,且很多书法字难以标注,主要原因有一,很多古汉字在现代汉语中不再使用;二,甲骨文、篆书、隶书、草书等风格的书体不容易辨认。光学识别字符Optical Character Recognition技术对打印体汉字具有很好的识别率,然而对历史书法字,其识别效果让人难以接受,主要是因为书法字风格各异,没有统一模板,且历史书法作品由于历史沧桑,具有模糊性。现有的基于内容的图像检索(CBIR)技术在书法字检索中并没有良好的效果。因此,本专利技术提出了一种利用形状进行书法字检索的方法,并实现了书法字检索系统。
技术实现思路
本专利技术的目的是提供一种,为当前不能用光学识别方法识别成文本的书法字提供检索工具。它包括如下步骤(1)对书法数据库进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选书法字;(2)对数据库中剩余的小部分候选字,匹配每个候选字与样本字形状的相似性,给出匹配值;(3)将匹配值按从小到大顺序排列,并根据书法字号取出相应的原始书法字图像,生成可视的检索结果,供用户浏览;(4)用户采用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的三种样例提交方法检索书法字。所述的对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字的步骤如下(1)采用书法字的复杂度指数、笔划密度、最左突起、水平及垂直投影直方图对数据库中的候选书法字进行剪枝;(2)采用动态时序校准算法匹配书法字投影直方图,用支持不等长采样序列的动态校准方法匹配书法字形状的轮廓序列。匹配每个候选字与样本字形状的相似性的步骤如下(1)提取单个书法字的轮廓形状特征,构造书法字的形状矩阵;(2)匹配书法字形状相似性,给出匹配值。提取单个书法字的轮廓形状特征的步骤如下(1)首先对书法作品页面进行版面分析,识别该作品是拓碑还是书帖,计算作品页面图像中单个书法字的最小包围盒,并使最小包围盒可编辑以便用户反馈更新,切分沿着最小包围盒边界进行以获取单个书法字;(2)二值化单个书法字获取书法字前景,对书法字非线性归一化,以使它们大小相同具有可比性;(3)用坎尼边缘检测算法获取书法字轮廓,将轮廓点序列化,进行隔点采样以降低书法字轮廓点的维数。构造书法字形状矩阵,匹配书法字形状相似性有以下约束(1)书法字由有序的笔划组成,不能拿一个字最左边的笔划和另外一个字最右边的笔划进行匹配,即在另一个字上搜索匹配点的范围是限定在区域D={qj|qj-pi|≤σ×length}内,其中length为归一化长度,σ为权值;(2)两个轮廓点是否为一匹配点对,不仅自身属性有关还与其所处的位置有关,因此点对的欧式距离平方用作惩罚值。计算书法字形状相似性的步骤如下(1)计算每个轮廓点的32个属性值,构造具有n个轮廓点的书法字的n×32形状矩阵,将同一轮廓点的32个属性值作为矩阵的一行;(2)两个书法字形状匹配值为Σi=1n(PMCi+α|pi-corres(pi)|2),]]>它是轮廓点匹配值的累积,轮廓点pi的匹配值为PMC=min{c(pi,qj)|j=0,1,2…m},其中qj为候选书法字上的轮廓点,C(pi,qj)=12Σk=132[aik-bjk]2/(aik+bjk).]]> 本专利技术具有的有益的效果是解决了书法字不能采用目前的光学字符识别技术识别成文本从而进行检索的问题,为书法爱好者提供一种展示同一字不同书法风格的艺术美;历史学者提供检索历史书法内容、了解历史文化的工具;为数字图书馆应用提供有效的数字书法检索工具。附图说明图1是流程框图;图2是书法页面切分中所述的书法字的垂直投影截图;图3是本专利技术的书法页面切分结果蓝色框为最小包围盒;图4是两种书法作品类型例子书帖和拓本及相应的二值化结果图;图5是本专利技术的书法字轮廓采样的一个例子;图6是本专利技术的轮廓点32属性值计算示意图;图7是本专利技术的两个书法字投影直方动态校准示例;图8是本专利技术的书法字检索的一个例子;图9(a)是本专利技术的鼠标画出的字的简图所提交的样本示意图;图9(b)是本专利技术的输入的文本所提交的样本示意图;图9(c)是本专利技术的导入的书法字图像所提交的样本示意图;图10是本专利技术的一个实施例子用鼠标画出的“书”字的简图,以此为样本的检索结果;图11是浏览图10第一行最后一个“书”字所在的原始作品,蓝色框标识了该字在原作中所在位置;图12是本专利技术的一个实施例子以一个书法“之”字图像为样本的检索测试结果;图13是浏览图12第一行第一个“之”字所在的原始作品,蓝色框标识了该字在原作中所在位置;图14是本专利技术的一个实施例子用鼠标画出一个“言”字简图作为样本;图15是以图14为样本的检索结果;图16是浏览图15最后一行最后一个“言”字所在的原始作品,蓝色框标识了该字在原作中所在位置;具体实施方法本专利技术提出的毛笔书法字图像检索的方法和系统,结合附图及其实施详细说明如下本专利技术的工作原理如图1所示,包括以下步骤1.对扫描的原始书法作品进行元数据标注,包括作品名、作者、朝代、评论的关键字,建立数据库表存放作品元数据及相应的原始扫描作品图像在磁盘中的存储路径。2.书法作品页面图像切分成单个书法字图像,结果如图3示例 令二元组(xi,s,xi,e)为第i个字切分块的横坐标起始和终止坐标,字切分块需满足xi,e-xi,s≥ω,xi+1,s-xi,e≥λ×1nΣi=1i=n(xi,e-xi,s)]]>α≤AreachAreaave,1β≤heightchwidthch≤β]]>其中ω=5,λ=0.3,α=0.6,β=1.2是实验经验阈值,widthch,heightch分别为切分块的宽度和高度,Areach,Areaave分别为切分块的面积及同一页面切割块的平均面积。3.单个书法字归一化为45×45象素点,并判别书法字类型,如图4示例书法字可分为两种类型书贴和拓本,书帖是拿直接写在纸张或者绢纸、丝绸上的作品,拓本是指从石头或者碑上拓下来的作品。两者二值化后字的颜色不同,书帖二值化后字是黑色的背景是白色的,拓本则反之。令f(i,j)为书法字图像函数,t本文档来自技高网...
【技术保护点】
一种毛笔书法字检索方法,其特征在于它包括如下步骤:(1)对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字;(2)对数据库中剩余的小部分候选字,匹配每个候选字与样本字形状的相似性,并给 出匹配值;(3)将匹配值按从小到大顺序排列,并根据书法字号取出相应的原始书法字图像,生成可视的检索结果,供用户浏览;(4)用户采用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的三种样例提交方法检索书 法字。
【技术特征摘要】
1.一种毛笔书法字检索方法,其特征在于它包括如下步骤(1)对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字;(2)对数据库中剩余的小部分候选字,匹配每个候选字与样本字形状的相似性,并给出匹配值;(3)将匹配值按从小到大顺序排列,并根据书法字号取出相应的原始书法字图像,生成可视的检索结果,供用户浏览;(4)用户采用鼠标画出一个汉字简图、从键盘输入一个文本汉字或从磁盘导入一个书法字图像的三种样例提交方法检索书法字。2.根据利要求1所述的一种毛笔书法字检索方法,其特征在于所述的对数据库中的候选书法字进行剪枝,剪去与用户所提交的样本字没有相似可能性的大部分候选字书法字的步骤如下(1)采用书法字的复杂度指数、笔划密度、最左突起、水平及垂直投影直方图对数据库中的候选书法字进行剪枝;(2)采用动态时序校准算法匹配书法字投影直方图,用支持不等长采样序列的动态校准方法匹配书法字形状的轮廓序列。3.根据权利要求1所述的一种毛笔书法字检索方法,其特征在于所述的匹配每个候选字与样本字形状的相似性的步骤如下(1)提取单个书法字的轮廓形状特征;(2)构造书法字形状矩阵,匹配书法字形状相似性。4.根据利要求3的所述的一种毛笔书法字检索方法,其特征在于所述的提取单个书法字的轮廓形状特征的步骤如下(1)首先对书法作品页面进行版面分析,识别该作品是拓碑还是书帖,计算书法作品页面图像中单个书法字的最小包围盒,并使最小包围盒可编辑以便用户反馈更...
【专利技术属性】
技术研发人员:庄越挺,潘云鹤,章夏芬,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。