一种英文信件地址的中文自动批译方法技术

技术编号:3809481 阅读:452 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及邮政处理自动化技术领域中的一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤:自动识别以英文印刷字符书写的信件地址;按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。本发明专利技术将识别得到的非结构化文本地址转换为结构化的地址信息集,运用模糊匹配方法与地址库中的进行比较,从而获得中文结果。本发明专利技术方法具有一定的容错性,降低了字符误识、书写不规范和书写错误对翻译性能的影响。

【技术实现步骤摘要】

本专利技术属于邮政处理自动化
,尤其涉及一种英文信件地址的中文自 动批译方法。
技术介绍
在国际邮件处理
,所述的批译是指将国际邮件上的地址、单位名称、 收件人名等投递信息翻译成中文批注到邮件上,以便邮件下一步的分拣和投递。 国际邮件的投递信息中涉及到的文种主要有中文、英文、日文、法文、俄文、德 文、西班牙文、意大利文等,其中英文站总量的90%。邮政部门的专业批译人员 将国际寄达中国的英文信件的收信人地址翻译成中文,并批注在信封上,以便于 投递人员送达目的地。批译人员除了要熟悉英文,还要熟悉邮件分拣业务,具有 行政区划的地理常识,掌握主要国家机关、外事单位、公共服务机构和大型企业 的地址,因此对于批译人员的要求非常之高达到了几乎不可能的程度。幸运的是,随着计算机技术的发展和普及,出现了机器自动翻译批译处理系 统,随着需求的演变,采用打印地址的商业信函的数量急剧增加,占到了通常信 件数量的主要部分,商业信函的地址的重复性高,运用字符识别技术和机器翻译 技术的地址批译系统针对此种情况更使得信件的批译处理效率倍增。然而,现有的英文信件地址的自动批译系统由于固有的技术上的限制仍然存在不少缺点,具体说,有以下几种情况1) 、字符识别技术的缺点目前印刷体的字符识别率可以达到99%以上,但是误识率是所有识别技术无 法避免的。比如将"H"错误识别为"M",将"I"错误识别为"1"等等。这就 增加了批译系统的拒翻率(即无翻译结果的概率)和误翻率(即错误翻译的概率)。2) 机器翻译技术的问题1. 地址中使用的语言是自然语言的一个子集,但对自然语言中字词句类型 的定义和规则却不能直接用在批译系统中,需要针对地址的用语下新的定义, 提取新的规则。2. 地址书写的不规范 目前还没有统一规定中国地址如何确切地用英文表示。如"南京西路"的英文表示方法就可以写为以下几种Nanjing xi lu, Nanjing West Road, West Nanjing Road等。 3.地址书写错误有些用户口」—能对中文拼音小是很熟悉,小会区分前后鼻音或者平翘舌音, 在书写地址时凭印象或或者信手写上一个。比例如把"ling ling lu"(零 陵路)写成"lin lin lu"。虽然识别出来的字符是正确的,但是对照标准 的地址库时却无法翻译出结果。
技术实现思路
本专利技术的目的是提供,解决目前由 于OCR误识、地址书写不规范或者书写错误对翻译性能的影响所造成的英文信件 地址批译中误翻或者拒翻的问题。本专利技术的技术方案是, ,其特征在 于,包括以下步骤Al、自动识别以英文印刷字符书写的信件地址;A2、按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;A3、对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。所述的步骤A3中的相似度计算过程由以下步骤组成Bl、将所述信件地址信息集记为AddrX(Seco , SeCl , ... , Sec1()),其中Secj(l 《j《10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、 邮箱号码、公司、收信人姓名的内容;B2、将所述地址信息数据库中某一地址记录记为DBk(Itenn, Item2,..., Item10, CIteiiM, CItem2, ... , CItem10),其中Itertij (1《j《10)分别表示地址信息项中 的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓 名的内容,Cltemj(l《j《10)是对应于Itemj的中文表述,1《k《N, N为数据库 中的记录总数;B3、将地址AddrX和数据库中某记录DBk的相似度定义为2sim(SeCy,Item乂) & (AddrX, DB J = ^——^-其中Sim(Secj, Itemj)是Secj和Item」两个字符串之间的相似度,&表示某个地址信息项是否为空,空则为O,非空则为l;B4、令a =^(AddrX,DBJ ,若》;i则认为AddrX与DBj相匹配,DBi(CItenn , CItem2 , ... , Cltem9)为AddrX的中文表述,其中;i是相似度阈值, 取值在0~1之间。所述步骤B4中的相似度阈值义取为0.85。所述步骤B3中的两个字符串之间的相似度Sim(Secj,Itemj)的取得过程由以下 步骤组成Cl、设八=Itemj为标准字符串,有m个字符组成,用表示; B:Secj为字符识别结果,有"个字符串组成,用[~》2, ...,Zg表示;C2、以编辑距离的比对法来计算B与A之间的相似度,用一个(m+l)X("+l) 的矩阵F记录比较结果,即令矩阵F初始化印,》=0' " " "'《肌,^U/)的值按如下i, j双循环计算印',》=max<印-,》其中^7( ^)表示字符化与字符4是否相同,定义为:(2 a,. = 6y, —2 a,化那么字符串B与A的比较结果定义为-Sim(B,A)=其中^ =mxcr(a,,fl,.) = 2w,是A与其本身的比较结果,取一定的阈值S,7当Sim(B, A)大于^时,则判定两个字符串是相同的。前述的英文信件地址的中文自动批译方法,还包括以下步骤Dl、根据预定义的词类建立地址常用词词典,每个词有四个属性词、匹配阈值、词类以及词类规则序号,其中匹配阈值是根据字符模糊比较方法判断待定词与词典中的词是否一致的参数,词类属性表示本词所属的类别,同一个词可以属于多种词类,词又分为单类 词和兼类词,词类规则序号属性这是用序号来表示确定本词的类别的词类规 则;D2、计算待定词和词典中所有词的比较结果,假设最高值为S/MA^(X,其对 应词的匹配阈值的值为^,如果57MM4X^0,则按照该词后两个属性词类和词类规则序号来确定词的类别,关键词的匹配阈值设置为1.0,不包括关键词的 其他的词的匹配阈值设置为0.9;D3、对于无法定义于词典中的词标为"字母串"。本专利技术的方法是以字符识别技术获得的收信人地址作为自动批译的输入,针 对识别错误不可避免的误识率以及地址中的用语规律,创建了具有容错性地址结 构化转换方法,将非结构化的地址文本转化为结构化的地址信息集;再应用一种 模糊匹配的方法与地址库中的中英文地址信息进行比较,自动翻译出对应的中文 地址。整个批译过程是一个全自动过程,无须人工干预。附图说明图1 是本专利技术一实施例中以向前搜索确定路名前缀的有限状态自动机DFA1 状态图图2是本专利技术一实施例中以向后搜索确定路名后缀的有限状态自动机DFA2 状态图图3是本专利技术一实施例中各个不同地址信息项的有限状态自动机具体实施例方式以下结合附图详细说明本专利技术技术方案的具体实施方式。本专利技术的实施中首 先需要完成具有容错性的地址结构化转换,具体说,这个过程主要是一种将非结 构性的文本地址转换为结构化的地址信息集。地址信息集有以下几个信息项构 成市、行政区、路名、门牌号、大楼名、居民小区、收信人、公司、邮编、邮 箱等。针对地址的行文语言的特殊性,定义了专门的词类和词类规则。本专利技术的 一实施例将词的类别归纳为18种大类,个别大类又细分为若干子类,参见本文档来自技高网
...

【技术保护点】
一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤: A1、自动识别以英文印刷字符书写的信件地址; A2、按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集; A3、对所述信件地址信息集与地址信息数据库 中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕岳屠晓
申请(专利权)人:上海邮政科学研究院
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1