一种语言处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:31012509 阅读:12 留言:0更新日期:2021-11-30 00:42
本申请公开了一种语言处理方法、装置、设备及计算机可读存储介质,所述方法包括:获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;获取所述目标字型编码对应的目标字符;基于所述目标字符,显示所述目标文本。利用本申请实施例提供的技术方案至少可以实现目标文本的字型的正确显示。本的字型的正确显示。本的字型的正确显示。

【技术实现步骤摘要】
一种语言处理方法、装置、设备及计算机可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种语言处理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]现有的光学字符识别技术(Optical Character Recognition,OCR)和输入法能够对包括黏着语在内的多种语言进行处理。由于黏着语包括多个基础字母,每个基础字母可对应至少两种不同的字型,在词语中呈现的字型基于基础字母出现在词语中的位置、或者基础字母间的组合形式等因素而定,在对黏着语的处理过程中,现有的OCR和输入法在显示黏着语的文本形式时,无法对黏着语的字型进行自动选型,所显示的黏着语字型正确率往往无法满足期望。

技术实现思路

[0003]本申请提供了一种语言处理方法、装置、设备及计算机可读存储介质,至少能够解决无法对黏着语的字型进行自动选型、无法正确显示黏着语的字型的技术问题。
[0004]一方面,本申请提供了一种语言处理方法,所述方法包括:
[0005]获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;
[0006]确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;
[0007]基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;
[0008]获取所述目标字型编码对应的目标字符;
[0009]基于所述目标字符,显示所述目标文本。
[0010]另一方面提供了一种语言处理装置,所述装置包括:
[0011]第一获取模块,获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;
[0012]第一确定模块,用于确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;
[0013]第二确定模块,用于基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;
[0014]第二获取模块,用于获取所述目标字型编码对应的目标字符;
[0015]显示模块,用于基于所述目标字符,显示所述目标文本。
[0016]另一方面提供了一种语言处理设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序、所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的语言处理方法。
[0017]另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的语言处理方法。
[0018]本申请提供的语言处理方法、装置、设备及计算机可读存储介质,具有如下技术效果:
[0019]本申请通过获取目标文本的至少两个基本区编码,确定至少两个基本区编码中相邻两个基本区编码的组合关系,可基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码,实现至少两个基本区编码的自动选型;根据目标字型编码对应的目标字符显示目标文本,实现目标文本的字型的正确显示,提高目标文本的可读性。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0021]图1是本申请实施例提供的一种语言处理方法的流程示意图;
[0022]图2是本申请实施例提供的一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
[0023]图3是本申请实施例提供的另一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
[0024]图4是本申请实施例提供的一种基本区编码组合的示意图;
[0025]图5是本申请实施例提供的又一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
[0026]图6是本申请实施例提供的再一种确定相邻两个基本区编码的组合关系的方法的流程示意图;
[0027]图7是本申请实施例提供的一个基本区编码“0645”的不同语法信息对应的字型编码的示意图;
[0028]图8是本申请实施例提供的一种目标文本中单词的正确显示与错误显示的对比图;
[0029]图9是本申请实施例提供的一种语言处理方法的应用示例的流程示意图;
[0030]图10是本申请实施例提供的一种语言处理装置的结构示意图;
[0031]图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
[0032]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0033]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034]以下介绍本申请一种语言处理方法,图1是本申请实施例提供的一种语言处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
[0035]S101:获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联。
[0036]本说明书实施例中,所述目标文本可以为黏着语文本对应的编码文本。
[0037]在实际应用中,黏着语文本可以包括至少两个不同的黏着语文字,至少两个不同的黏着语文字的字型具有对应的基础字母。计算机可以通过OCR技术识别图像中的黏着语文本,还可以通过黏着语输入法获取外部输入的黏着语文本,在对黏着语文本存储的情况下,对至少两个黏着语文字的字型对应的基础字母的编码进行存储,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言处理方法,其特征在于,所述方法包括:获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;获取所述目标字型编码对应的目标字符;基于所述目标字符,显示所述目标文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据目标文本对应的书写顺序,确定所述至少两个基本区编码的处理优先级;遍历所述至少两个基本区编码;确定与当前遍历到的基本区编码相邻、且处理优先级高于所述当前遍历到的基本区编码的第一编码;确定与当前遍历到的基本区编码相邻、且处理优先级低于所述当前遍历到的基本区编码的第二编码;相应的,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,包括:获取预设的至少一个基本区编码组合,所述基本区编码组合中的两个基本区编码对应相同的目标字型编码;判断在所述至少一个基本区编码组合中是否存在第一目标编码组合;其中,所述第一目标编码组合为所述第一编码与所述当前遍历到的基本区编码的组合;在判断出存在所述第一目标编码组合的情况下,判断所述当前遍历到的基本区编码和所述第一编码是否已建立组合关系,在判断出未建立组合关系的情况下,建立所述当前遍历到的基本区编码和所述第一编码的组合关系;在遍历结束时,将遍历过程中建立的组合关系作为所述至少两个基本区编码中相邻两个基本区编码的组合关系。3.根据权利要求2所述的方法,其特征在于,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,还包括:在判断出不存在所述第一目标编码组合的情况下,判断所述至少一个基本区编码组合中是否存在第二目标编码组合;其中,所述第二目标编码组合为所述当前遍历到的编码与所述第二编码的组合;在判断出存在所述第二目标编码组合的情况下,建立所述当前遍历到的基本区编码与所述第二编码的组合关系。4.根据权利要求2所述方法,其特征在于,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,还包括:在判断出存在所述第一目标编码组合、且所述当前遍历到的基本区编码和所述第一编码已建立组合关系的情况下,遍历下一个基本区编码。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:预先设置第一映射信息,所述第一映射信息表征各个基本区编码组合与对应的目标字型编码间的映射关系;
相应的,所述基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码,包括:在所述当前遍历到的基本区编码与所述第二编码建立有组合关系的情况下,根据所述第一映射信息,从各个基本区编码组合对应的目标字型编码中确定与所述第二目标编码组合对应的目标字型编码。6.根据权利要求3所述的方法,其特征在于,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,还包括:在判断出不存在所述第一目标编码组合、且不存在所述第二目标编码组合的情况下,确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息;基于所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码。7.根据权利要求6所述的方法,其特征在于,所述确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息,包括:确定第一编码和第二编码的类型,所述类型包括文字类型和符号类型;根据所述第一编码和第二编码的类型,确定所述当前遍历到的基本区编码在所述目标文本的目标语法信息。8....

【专利技术属性】
技术研发人员:李应弟黄珊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1