一种英文信件地址的中文自动批译方法技术

技术编号：3809481 阅读：480 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及邮政处理自动化技术领域中的一种英文信件地址的中文自动批译方法，其特征在于，包括以下步骤：自动识别以英文印刷字符书写的信件地址；按照地址信息库的形式结构化所述的信件地址，得到信件地址信息集；对所述信件地址信息集与地址信息数据库中的记录做相似度计算，以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。本发明专利技术将识别得到的非结构化文本地址转换为结构化的地址信息集，运用模糊匹配方法与地址库中的进行比较，从而获得中文结果。本发明专利技术方法具有一定的容错性，降低了字符误识、书写不规范和书写错误对翻译性能的影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于邮政处理自动化
，尤其涉及一种英文信件地址的中文自动批译方法。
技术介绍
在国际邮件处理
，所述的批译是指将国际邮件上的地址、单位名称、收件人名等投递信息翻译成中文批注到邮件上，以便邮件下一步的分拣和投递。国际邮件的投递信息中涉及到的文种主要有中文、英文、日文、法文、俄文、德文、西班牙文、意大利文等，其中英文站总量的90%。邮政部门的专业批译人员将国际寄达中国的英文信件的收信人地址翻译成中文，并批注在信封上，以便于投递人员送达目的地。批译人员除了要熟悉英文，还要熟悉邮件分拣业务，具有行政区划的地理常识，掌握主要国家机关、外事单位、公共服务机构和大型企业的地址，因此对于批译人员的要求非常之高达到了几乎不可能的程度。幸运的是，随着计算机技术的发展和普及，出现了机器自动翻译批译处理系统，随着需求的演变，采用打印地址的商业信函的数量急剧增加，占到了通常信件数量的主要部分，商业信函的地址的重复性高，运用字符识别技术和机器翻译技术的地址批译系统针对此种情况更使得信件的批译处理效率倍增。然而，现有的英文信件地址的自动批译系统由于固有的技术上的限制仍然存在不少缺点，具体说，有以下几种情况1) 、字符识别技术的缺点目前印刷体的字符识别率可以达到99%以上，但是误识率是所有识别技术无法避免的。比如将"H"错误识别为"M"，将"I"错误识别为"1"等等。这就增加了批译系统的拒翻率(即无翻译结果的概率)和误翻率(即错误翻译的概率)。2) 机器翻译技术的问题1. 地址中使用的语言是自然语言的一个子集，但对自然语言中字词句类型的...

【技术保护点】
一种英文信件地址的中文自动批译方法，其特征在于，包括以下步骤：　Ａ１、自动识别以英文印刷字符书写的信件地址；　Ａ２、按照地址信息库的形式结构化所述的信件地址，得到信件地址信息集；　Ａ３、对所述信件地址信息集与地址信息数据库中的记录做相似度计算，以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：吕岳，屠晓，
申请(专利权)人：上海邮政科学研究院，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人