文本匹配方法、装置、电子设备、介质及程序产品制造方法及图纸

技术编号:32565120 阅读:19 留言:0更新日期:2022-03-09 16:50
本发明专利技术公开了一种文本匹配方法、装置、电子设备、介质及程序产品,所述方法包括:获取原始层级结构图中的文本信息及层级结构信息,所述文本信息包括m个目标文本块,所述层级结构信息包括n个层级节点;从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块;将n个所述层级节点各自的关联文本块与n个所述层级节点进行关联匹配,得到所述原始层级结构图对应的还原层级结构图。上述方案,提升了文本匹配的便捷性及高效性,同时还解决了现有技术中无法实现思维导图中文本与节点匹配的技术问题。问题。问题。

【技术实现步骤摘要】
文本匹配方法、装置、电子设备、介质及程序产品


[0001]本专利技术涉及图像处理
,尤其涉及一种文本匹配方法、装置、电子设备、介质及程序产品。

技术介绍

[0002]层级结构图是一层次清晰的嵌套结构图,经常出现在用户的日常工作和学习生活中。其中,以思维导图为例,是一种表达发散性思维的有效图形思维工具。为便于文件传输和用户阅读,思维导图通常以图像的形式存在。然而,思维导图以图像格式作为文件存储与传输方式时,存在一个很大的缺陷,即支持查阅、但无法再编辑。因此,需基于图像技术对结构图进行还原处理,以实现还原结构图的再编辑。
[0003]然而在还原结构图的过程中,如何实现结构图中文本与节点之间的关联匹配,是亟需解决的重要问题。

技术实现思路

[0004]本专利技术实施例通过提供一种文本匹配方法、装置、电子设备、介质及程序产品,解决了现有技术中无法实现思维导图中文本与节点匹配的技术问题,从而实现了层级结构图中文本与节点的快速及高效匹配,有利于提升文本匹配的便捷性及高效性。
[0005]第一方面,本专利技术实施例提供一种文本匹配方法,包括:
[0006]获取原始层级结构图中的文本信息及层级结构信息,所述文本信息包括m个目标文本块,所述层级结构信息包括n个层级节点,m和n均为正整数;
[0007]从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块;
[0008]将n个所述层级节点各自的关联文本块与n个所述层级节点进行关联匹配,得到所述原始层级结构图对应的还原层级结构图。
[0009]可选地,所述从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块包括:
[0010]根据n个所述层级节点各自的类型,确定n个所述层级节点各自的文本筛选策略;
[0011]根据n个所述层级节点各自的文本筛选策略,从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块。
[0012]可选地,若所述层级结构信息还包括每个所述层级节点的类型,n个所述层级节点中包括目标层级节点,且所述目标层级节点的类型为预设块节点类型,所述文本信息还包括每个所述目标文本块的文本框,则:
[0013]所述根据n个所述层级节点各自的类型,确定n个所述层级节点各自的文本筛选策略包括:
[0014]根据所述预设块节点类型,确定所述目标层级节点的文本筛选策略为第一筛选策略;
[0015]所述根据n个所述层级节点各自的文本筛选策略,从m个所述目标文本块中筛选出
n个所述层级节点各自的关联文本块包括:
[0016]根据所述第一筛选策略的指示,计算每个所述目标文本块的文本框与所述目标层级节点的节点框之间的相交面积;
[0017]选取所述相交面积大于预设面积的文本框所对应的目标文本块,作为所述目标层级节点的关联文本块。
[0018]可选地,若所述层级结构信息还包括每个所述层级节点的类型,n个所述层级节点中包括目标层级节点,且所述目标层级节点的类型为预设点节点类型,所述文本信息还包括每个所述目标文本块的文本框,则:
[0019]所述根据n个所述层级节点各自的类型,确定n个所述层级节点各自的文本筛选策略包括:
[0020]根据所述预设点节点类型,确定所述目标层级节点的文本筛选策略为第二筛选策略;
[0021]所述根据n个所述层级节点各自的文本筛选策略,从至少一个所述目标文本块中筛选出n个所述层级节点各自的关联文本块包括:
[0022]根据所述第二筛选策略的指示,计算每个所述目标文本块的文本框与所述目标层级节点之间的距离;
[0023]选取所述距离最小的文本框所对应的目标文本块,作为所述目标层级节点的关联文本块。
[0024]可选地,所述层级结构信息还包括所述层级节点之间的逻辑连线,所述目标层级节点为所述原始层级结构图中的叶子节点,所述计算每个所述目标文本块的文本框与所述目标层级节点之间的距离包括:
[0025]确定所述叶子节点与所述叶子节点的父节点之间的目标逻辑连线,所述目标逻辑连线包括至少一个特征点;
[0026]计算每个所述特征点与每个所述目标文本块的文本框之间的距离。
[0027]可选地,每个所述目标文本块的文本框对应有最大横坐标、最小横坐标、最大纵坐标及最小纵坐标,所述计算每个所述目标文本块的文本框与所述目标层级节点之间的距离包括:
[0028]根据每个所述目标文本块的文本框的最大横坐标、最小横坐标及所述目标层级节点的节点横坐标,计算每个所述目标文本块的文本框与所述目标层级节点之间的横坐标距离;
[0029]根据每个所述目标文本块的文本框的最大纵坐标、最小纵坐标及所述目标层级节点的节点纵坐标,计算每个所述目标文本块的文本框与所述目标层级节点之间的纵坐标距离;
[0030]根据每个所述目标文本块的文本框与所述目标层级节点之间的横坐标距离和纵坐标距离,计算每个所述目标文本块的文本框与所述目标层级节点之间的距离。
[0031]可选地,所述目标文本块的文本框与所述目标层级节点之间的横坐标距离为:
[0032]DX=max(PX
min

PX,0,PX

PX
max
)
[0033]其中,PX
min
为所述目标文本块的文本框的最小横坐标,PX为所述目标层级节点的节点横坐标,PX
max
为所述目标文本块的文本框的最大横坐标;
[0034]所述目标文本块的文本框与所述目标层级节点之间的纵坐标距离为:
[0035]DY=max(PY
min

PY,0,PY

PY
max
)
[0036]其中,PY
min
为所述目标文本块的文本框的最小纵坐标,PY为所述目标层级节点的节点纵坐标,PY
max
为所述目标文本块的文本框的最大纵坐标。
[0037]可选地,所述获取原始层级结构图中的文本信息包括:
[0038]对原始层级结构图进行文本识别,得到所述原始层级结构图中的原始信息,所述原始信息包括至少一个文本行、至少一个原始文本块、每个所述文本行的文本框及每个所述原始文本块的文本框;
[0039]对每个所述文本行的文本框进行膨胀处理,得到每个所述文本行的膨胀框;
[0040]对每个所述文本行的膨胀框和每个所述原始文本块的文本框进行连通域分析,得到m个所述目标文本块;
[0041]根据m个所述目标文本块,得到所述文本信息。
[0042]可选地,所述获取原始层级结构图中的层级结构信息包括:
[0043]对原始层级结构图进行节点提取,得到所述原始层级结构图中的q个初始节点,q为正整数;
[0044]若检测到同一节点位置处存在p个重叠节点,则根据所述p个重叠节点的类型,对所述p个重叠节点进行重建处理,得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:获取原始层级结构图中的文本信息及层级结构信息,所述文本信息至少包括m个目标文本块,所述层级结构信息至少包括n个层级节点,m和n均为正整数;从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块;将n个所述层级节点各自的关联文本块与n个所述层级节点进行关联匹配,得到所述原始层级结构图对应的还原层级结构图。2.根据权利要求1所述的方法,其特征在于,所述从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块包括:根据n个所述层级节点各自的类型,确定n个所述层级节点各自的文本筛选策略;根据n个所述层级节点各自的文本筛选策略,从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块。3.根据权利要求2所述的方法,其特征在于,若所述层级结构信息还包括每个所述层级节点的类型,n个所述层级节点中包括目标层级节点,且所述目标层级节点的类型为预设块节点类型,所述文本信息还包括每个所述目标文本块的文本框,则:所述根据n个所述层级节点各自的类型,确定n个所述层级节点各自的文本筛选策略包括:根据所述预设块节点类型,确定所述目标层级节点的文本筛选策略为第一筛选策略;所述根据n个所述层级节点各自的文本筛选策略,从m个所述目标文本块中筛选出n个所述层级节点各自的关联文本块包括:根据所述第一筛选策略的指示,计算每个所述目标文本块的文本框与所述目标层级节点的节点框之间的相交面积;选取所述相交面积大于预设面积的文本框所对应的目标文本块,作为所述目标层级节点的关联文本块。4.根据权利要求2所述的方法,其特征在于,若所述层级结构信息还包括每个所述层级节点的类型,n个所述层级节点中包括目标层级节点,且所述目标层级节点的类型为预设点节点类型,所述文本信息还包括每个所述目标文本块的文本框,则:所述根据n个所述层级节点各自的类型,确定n个所述层级节点各自的文本筛选策略包括:根据所述预设点节点类型,确定所述目标层级节点的文本筛选策略为第二筛选策略;所述根据n个所述层级节点各自的文本筛选策略,从至少一个所述目标文本块中筛选出n个所述层级节点各自的关联文本块包括:根据所述第二筛选策略的指示,计算每个所述目标文本块的文本框与所述目标层级节点之间的距离;选取所述距离最小的文本框所对应的目标文本块,作为所述目标层级节点的关联文本块。5.根据权利要求4所述的方法,其特征在于,所述层级结构信息还包括所述层级节点之间的逻辑连线,所述目标层级节点为所述原始层级结构图中的叶子节点,所述计算每个所述目标文本块的文本框与所述目标层级节点之间的距离包括:确定所述叶子节点与所述叶子节点的父节点之间的目标逻辑连线,所述目标逻辑连线
包括至少一个特征点;计算每个所述特征点与每个所述目标文本块的文本框之间的距离。6.根据权利要求1所述的方法,其特征在于,所述获取原始层级结构图中的文本信息包括:对原始层级结构图进行文本识别,得到所述原始层级结构图中的原始信息,所述原始信息包括至少一个文本行、至少一个原始文本块、每个所述文本行的文本框及每个所述原始文本块的文本框;对每个所述文本行的文本框进行膨胀处理,得到每个所述文本行的膨胀框;对每个所述文本行的膨胀框和每个所述原始文本块的文本框进行连通域分析,得到m个所述目标文本块;根据m个所述目标文本块,得到所述文本信息。7.根据权利要求1所述的方法,其特征在于,所述获取原始层级结构图中的层级结构信息包括:对原始层级结构图进行节点提取,得到所述...

【专利技术属性】
技术研发人员:谷枫韦涛饶旭东
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1