基于字形相似度的Unicode传统蒙文规范化方法,涉及文本规范化、传统蒙文编码等领域。通过遍历输入的Unicode编码的传统蒙文文本中的每个词语,将Unicode传统蒙文同形词表收录的词语均替换为其所在等价类的规范编码形式,得到规范化的传统蒙文文本。能有效对Unicode编码的传统蒙文同形词进行规范化,降低统计语言模型在传统蒙文中的数据稀疏性。利用Unicode编码的传统蒙文语料库统计Unicode传统蒙文词汇表,对词汇表中的各个词语依据Unicode传统蒙文同形字母表和图像匹配算法生成同形词,通过归并等价类得到同形词表。Unicode传统蒙文同形字母表包括22条同形替换规则。
【技术实现步骤摘要】
本专利技术涉及文本规范化、传统蒙文编码等领域,尤其是涉及对因传统蒙文Unicode编码中同形字符存在不同内码而产生的同形词进行规范化的方法。
技术介绍
传统蒙文的Unicode编码中,字符按其对应的字母进行编码,同一字形的字符可能对应不同的码位。例如,字母a在词首、词中和词尾对应不同的字形,但均对应同一编码(U+1820);尽管字母o和字母u在词尾时的字形相同,但二者是不同编码(U+1823和U+1824)。这一编码原则导致Unicode编码的传统蒙文中,某一词形可能存在多种不同的内码。例如,传统蒙文中的(“蒙古”)一词,在收集的互联网语料中发现,其内码可能是“U+182eU+1823U+1829U+182dU+1823U+182f(monggol)”,也可能是“U+182eU+1824U+1829U+182dU+1824U+182f(munggul)”,或是“U+182eU+1824U+1829U+182dU+180bU+1824U+182f(mungg1ul)”,甚至是“U+182eU+1823U+1829U+182dU+182bU+1824U+182f(mongg1ul)”。这些不同的编码序列对应的传统蒙文词形完全相同,但只有monggol是正确的拼写。在用户输入传统蒙文文本的过程中,流行的输入法无法保证用户输入的传统蒙文单词均具有正确的内码。同时,从早期非Unicode编码的传统蒙文文本转换到Unicode编码的过程中也存在引入错误内码的可能。因此,目前互联网上Unicode编码的传统蒙文文本中,存在大量错误的同形词。计算机程序通常仅根据内码而非词形来处理传统蒙文文本,因此同形词通常被当作两个不同的词语对待,致使搜索引擎难以有效地进行传统蒙文的信息检索,机器翻译等领域的统计方法在传统蒙文文本上存在严重的数据稀疏问题。因此需要用于将Unicode编码的传统蒙文文本中的错误同形词替换为正确内码的传统蒙文规范化方法。目前尚无相关技术专利。廉冰(廉冰.基于有限状态自动机的蒙古文同形词校对方法的研究[D].内蒙古大学,2014)提出了一种基于字符替换规则的传统蒙文同形词校对方法,该方法依赖于基于词典构造的传统蒙文词法分析器,难以正确处理互联网文本中可能出现的词典外的传统蒙文词语。安波等(安波,诺明花,吴健,等.传统蒙古文“同形不同码”问题研究[J].信息技术与标准化,2015年第Z1期)注意到了传统蒙文同形不同码的问题,但不针对Unicode传统蒙文编码,其同形词表构造算法受限于语料库的规模,无法收录语料库中未出现的同形词。
技术实现思路
本专利技术的目的在于解决由Unicode传统蒙文同形词导致的问题并克服已有方法的不足,提供基于字形相似度的Unicode传统蒙文规范化方法。本专利技术包括以下步骤:1)接收Unicode编码的传统蒙文文本;2)遍历输入文本中的每个词语,将Unicode传统蒙文同形词表收录的词语均替换为其所在等价类的规范编码形式;3)输出替换后的传统蒙文文本。在步骤2)中,所述Unicode传统蒙文同形词表的生成方法如下:(1)利用Unicode编码的传统蒙文语料库统计Unicode传统蒙文词汇表;(2)从Unicode传统蒙文词汇表中选取一词,利用Unicode传统蒙文同形字母表为当前词生成所有可能具有相同词形的词,并通过图像匹配筛选出词形相同的同形词;(3)对于当前词的各个同形词,若当前词与该同形词二者均不属于任何等价类,则将这两个词放入一个新的等价类;若二者中有且仅有一者属于某一等价类,则将另一者归入该等价类;若二者分属不同的等价类,则将二者所属等价类合并;(4)重复步骤(2)直到Unicode传统蒙文词汇表中的所有词均已被处理;(5)在各个等价类中分别选出一个规范的编码形式;(6)输出所有等价类即为Unicode传统蒙文同形词表。在步骤2)第(2)部分中,所述Unicode传统蒙文同形字母表包括以下22条同形替换规则:(1)U+1820(a)可以被替换为U+1821(e);(2)U+1821(e)可以被替换为U+1820(a);(3)U+1823(o)可以被替换为U+1824(u);(4)U+1823(o)可以被替换为U+1825(oe);(5)U+1823(o)可以被替换为U+1826(ue);(6)U+1824(u)可以被替换为U+1823(o);(7)U+1824(u)可以被替换为U+1825(oe);(8)U+1824(u)可以被替换为U+1826(ue);(9)U+1825(oe)可以被替换为U+1823(o);(10)U+1825(oe)可以被替换为U+1824(u);(11)U+1825(oe)可以被替换为U+1826(ue);(12)U+1826(ue)可以被替换为U+1823(o);(13)U+1826(ue)可以被替换为U+1824(u);(14)U+1826(ue)可以被替换为U+1825(oe);(15)U+180b(FVS1)可以被替换为空;(16)U+180c(FVS2)可以被替换为空;(17)U+180d(FVS3)可以被替换为空;(18)U+1829(ng)可以被替换为U+1828U+182d(n+g);(19)U+183c(h)可以被替换为U+183d(g);(20)U+183d(g)可以被替换为U+183c(h);(21)U+1833(d)可以被替换为U+1832(t);(22)U+1832(t)可以被替换为U+1833(d)。本专利技术提供一个Unicode传统蒙文同形字母表、一种根据同形字母表生成Unicode传统蒙文同形词表的方法和一种根据同形词表进行传统蒙文文本规范化的方法。本专利技术具有以下有益效果:1、利用归纳总结的Unicode传统蒙文同形字母表,采用等价类方法生成Unicode传统蒙文同形词表,确保了未在语料中出现的同形词能被有效收录,从而得到更为全面的同形词表,使文本规范化的结果更为准确;2、采用本专利技术对目前互联网上的传统蒙文网页进行规范化,有利于提高蒙文搜索引擎的检出率;3、本专利技术有利于降低统计模型的稀疏性,提高基于统计方法的蒙文信息处理技术的效果,如在蒙文到其它语言的机器翻译系统中,采用本专利技术对训练语料和待译文本进行规范化,有利于提高翻译质量。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本专利技术,并不用于限定本专利技术。实施例1本实施例中所述Unicode传统蒙文同形词表生成方法,包括以下步骤:S1,利用Unicode编码的传统蒙文语料库统计Unicode传统蒙文词汇表。其中,本实施例采用一个规模为1.5亿词的Unicode编码的传统蒙文互联网语料(http://cloudtranslation.cc/corpus_minority.html)。S2,从Unicode传统蒙文词汇表中选取一词,利用Unicode传统蒙文同形字母表为当前词生成所有可能具有相同词形的词,并通过图像匹配筛选出词形相同的同形词。其中,Unicode传统蒙文同形字母表包括22条同形替换规则:(1)U+1820(a)可以被替换为U+1821(e);(2)U+1821(本文档来自技高网...
【技术保护点】
基于字形相似度的Unicode传统蒙文规范化方法,其特征在于包括以下步骤:1)接收Unicode编码的传统蒙文文本;2)遍历输入文本中的每个词语,将Unicode传统蒙文同形词表收录的词语均替换为其所在等价类的规范编码形式;3)输出替换后的传统蒙文文本。
【技术特征摘要】
1.基于字形相似度的Unicode传统蒙文规范化方法,其特征在于包括以下步骤:1)接收Unicode编码的传统蒙文文本;2)遍历输入文本中的每个词语,将Unicode传统蒙文同形词表收录的词语均替换为其所在等价类的规范编码形式;3)输出替换后的传统蒙文文本。2.如权利要求1所述基于字形相似度的Unicode传统蒙文规范化方法,其特征在于在步骤2)中,所述Unicode传统蒙文同形词表的生成方法如下:(1)利用Unicode编码的传统蒙文语料库统计Unicode传统蒙文词汇表;(2)从Unicode传统蒙文词汇表中选取一词,利用Unicode传统蒙文同形字母表为当前词生成所有可能具有相同词形的词,并通过图像匹配筛选出词形相同的同形词;(3)对于当前词的各个同形词,若当前词与该同形词二者均不属于任何等价类,则将这两个词放入一个新的等价类;若二者中有且仅有一者属于某一等价类,则将另一者归入该等价类;若二者分属不同的等价类,则将二者所属等价类合并;(4)重复步骤(2)直到Unicode传统蒙文词汇表中的所有词均已被处理;(5)在各个等价类中分别选出一个规范的编码形式;(6)输出所有等价类即为Unicode传统蒙文同形词表。3.如权利要求2所述基于字形相似度的Unicode传统蒙文规范化方法,其特征在于在步骤2)第(2)部分中,所述Unicode传统蒙文同形字母表包括以下22条同形替换规则:(1)U+1820(a)可以被替换...
【专利技术属性】
技术研发人员:史晓东,王博立,
申请(专利权)人:厦门大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。