【技术实现步骤摘要】
一种语言处理方法、装置、设备及计算机可读存储介质
[0001]本申请涉及计算机
,尤其涉及一种语言处理方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]现有的光学字符识别技术(Optical Character Recognition,OCR)和输入法能够对包括黏着语在内的多种语言进行处理。由于黏着语包括多个基础字母,每个基础字母可对应至少两种不同的字型,在词语中呈现的字型基于基础字母出现在词语中的位置、或者基础字母间的组合形式等因素而定,在对黏着语的处理过程中,现有的OCR和输入法在显示黏着语的文本形式时,无法对黏着语的字型进行自动选型,所显示的黏着语字型正确率往往无法满足期望。
技术实现思路
[0003]本申请提供了一种语言处理方法、装置、设备及计算机可读存储介质,至少能够解决无法对黏着语的字型进行自动选型、无法正确显示黏着语的字型的技术问题。
[0004]一方面,本申请提供了一种语言处理方法,所述方法包括:
[0005]获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;
[0006]确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;
[0007]基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;
[0008]获取所述目标字型编码对应的目标字符;
[0009]基于所述目标字符,显示所述目标 ...
【技术保护点】
【技术特征摘要】
1.一种语言处理方法,其特征在于,所述方法包括:获取目标文本的至少两个基本区编码,所述基本区编码与至少两种字型编码关联;确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,所述组合关系表征相邻两个基本区编码是否对应相同的目标字型编码;基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码;获取所述目标字型编码对应的目标字符;基于所述目标字符,显示所述目标文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据目标文本对应的书写顺序,确定所述至少两个基本区编码的处理优先级;遍历所述至少两个基本区编码;确定与当前遍历到的基本区编码相邻、且处理优先级高于所述当前遍历到的基本区编码的第一编码;确定与当前遍历到的基本区编码相邻、且处理优先级低于所述当前遍历到的基本区编码的第二编码;相应的,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,包括:获取预设的至少一个基本区编码组合,所述基本区编码组合中的两个基本区编码对应相同的目标字型编码;判断在所述至少一个基本区编码组合中是否存在第一目标编码组合;其中,所述第一目标编码组合为所述第一编码与所述当前遍历到的基本区编码的组合;在判断出存在所述第一目标编码组合的情况下,判断所述当前遍历到的基本区编码和所述第一编码是否已建立组合关系,在判断出未建立组合关系的情况下,建立所述当前遍历到的基本区编码和所述第一编码的组合关系;在遍历结束时,将遍历过程中建立的组合关系作为所述至少两个基本区编码中相邻两个基本区编码的组合关系。3.根据权利要求2所述的方法,其特征在于,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,还包括:在判断出不存在所述第一目标编码组合的情况下,判断所述至少一个基本区编码组合中是否存在第二目标编码组合;其中,所述第二目标编码组合为所述当前遍历到的编码与所述第二编码的组合;在判断出存在所述第二目标编码组合的情况下,建立所述当前遍历到的基本区编码与所述第二编码的组合关系。4.根据权利要求2所述方法,其特征在于,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,还包括:在判断出存在所述第一目标编码组合、且所述当前遍历到的基本区编码和所述第一编码已建立组合关系的情况下,遍历下一个基本区编码。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:预先设置第一映射信息,所述第一映射信息表征各个基本区编码组合与对应的目标字型编码间的映射关系;
相应的,所述基于所述组合关系,从所述各个基本区编码关联的至少两种字型编码中确定所述各个基本区编码对应的目标字型编码,包括:在所述当前遍历到的基本区编码与所述第二编码建立有组合关系的情况下,根据所述第一映射信息,从各个基本区编码组合对应的目标字型编码中确定与所述第二目标编码组合对应的目标字型编码。6.根据权利要求3所述的方法,其特征在于,所述确定所述至少两个基本区编码中相邻两个基本区编码的组合关系,还包括:在判断出不存在所述第一目标编码组合、且不存在所述第二目标编码组合的情况下,确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息;基于所述目标语法信息,从所述当前遍历到的基本区编码关联的至少两种字型编码中确定所述当前遍历到的基本区编码对应的目标字型编码。7.根据权利要求6所述的方法,其特征在于,所述确定所述当前遍历到的基本区编码在所述目标文本中的目标语法信息,包括:确定第一编码和第二编码的类型,所述类型包括文字类型和符号类型;根据所述第一编码和第二编码的类型,确定所述当前遍历到的基本区编码在所述目标文本的目标语法信息。8....
【专利技术属性】
技术研发人员:李应弟,黄珊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。