本发明专利技术公开了一种从互联网上自动提取双语翻译词典的方法,其特征在于,包括:从中外双语网页中提取括号双语词汇和良结构双语词汇;对所述提取的括号双语词汇进行截取,得到翻译准确的括号双语词汇;对良结构双语词汇和经过上一步后的括号双语词汇进行词根合并;对给定的中文,首先在良结构双语词汇中寻找对应的翻译,如果找到则忽略括号双语词汇的翻译;否则在括号双语词汇中寻找对应的翻译,同样方法处理每条外语,最终得到最后的双语翻译词典。本发明专利技术依据双语词汇的词频能够快速有效、不依赖任何外来资源自动构建双语翻译词典。
【技术实现步骤摘要】
本专利技术涉及统计自然语言处理
,特别涉及一种从互联网上自动提取双语 翻译词典的方法。
技术介绍
无论是科研还是平时生活,人们对外语的接触和依赖程度都很高。传统的翻译词 典主要来自人工的整理编辑,生成周期长,而且更新慢,覆盖度不高。现有的基于互联网生 成翻译词典的方法需要依靠多种自然语言处理技术和机器学习技术,这些方法在处理很大 规模数据时可能成为性能的瓶颈,同时要依赖事先建立的资源。我们构造的双语翻译词典来自互联网,除了传统词汇外还可以很好的覆盖当前流 行词汇以及命名实体,给人们的实际应用以及机器翻译等其他领域的科研带来极大的便 禾U。以下是双语词典相关的名词解析1.双语词汇在中英文双语网页中,存在大量的具有翻译关系或者其他关联的中英双语出现在 一起。这些相互对应的中英双语构成双语对,我们称之为双语词汇。随着互联网的快速发 展,这些双语词汇已经具有庞大的数量,经过提取便能很好的服务平时的生活和科研应用。2.词频同一个双语词汇在不同的网页中可能重复出现,双语词汇在抓取的所有网页中出 现的次数称为词频。3.括号双语词汇在许多双语网页中,人们常常习惯在一个词或短语之后的括号内跟上该词或短语 的翻译,具有这种对应关系双语词汇我们称为括号双语词汇。括号双语词汇出现在各种类 型的双语网页中,包括购物、官方主页、新闻等,覆盖了人们生活的各个方面。但括号双语 词汇还包括很多非翻译的关系,例如补充说明、论坛id等,整体上覆盖率很高,但正确率偏 低。4.英中双语词汇括号内为英文、括号前为中文的括号双语词汇。5.中英双语词汇括号内为中文、括号前为英文的括号双语词汇。6.中文语料库所有双语词汇中括号内的中文组成中文语料库。7.前缀在英中双语词汇中,从左括号开始依次从右往左遍历中文,将得到的字串逐个在 中文语料库中查找,可以查找到的字串成为该英中双语词汇的一个前缀8.良结构双语词汇在一些专业网站或者外语学习网站,会有经过用户整理的某一类词语以及对应的翻译,这些词语和翻译往往以很规整的结构出现,我们称为良结构词汇。这部分双语词汇都 是经过人工整理的,正确率高,同时这些双语词汇出现的结构规整,便于提取。但由于这部 分双语词汇是经过整理以后的,覆盖率相对括号双语词汇偏低。9.流行用语流行用语是指互联网中出现的很多传统词典无法覆盖的英语词汇,例如orz(失 意体前屈),ft (晕倒)、pmp (拍马屁)等,这些或者是单词的缩写,或者是拼音的缩写,或者 是象形文字等等。10.命名实体命名实体主要指一些用来描述地名、公司名、品牌名或者新的技术等的特定词汇, 由于公司名、品牌名以及技术都在不断地更新,新的词汇也在不停地出现,所以很多命名 实体词汇为传统词典所无法覆盖,例如Baleno (班尼路)、cloud computing(云计算)、 kobe (科比)等。11.词根词根指英文单词意义的主要部分,通过英文单词中去掉由于语态和复数形式添加 的后缀获得。例如witten的词根为wit,managing的词根为manag。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是在从互联网构建双语词典时如何快速有效地自动构 建且不依赖任何外来资源的问题。( 二 )技术方案,包括以下步骤Sl 从中外双语网页中提取括号双语词汇和良结构双语词汇,并记录词频;所述 双语词汇为具有翻译关系的中外双语出现在一起组成的词汇,所述良结构双语词汇为先前 经过人工整理的具有准确翻译的双语词汇,所述括号双语词汇为词或短语之后的括号内跟 上该词或短语的翻译的双语词汇,包括外中双语词汇,括号内为外语、括号前为中文的括号双语词汇。中外双语词汇,括号内为中文、括号前为外语的括号双语词汇。S2 对所述提取的括号双语词汇进行截取,得到翻译准确的括号双语词汇;S3 对良结构双语词汇和经过步骤S2后的括号双语词汇进行词根合并和筛选;S4 对给定的中文或外语,首先在良结构双语词汇中查找对应的翻译,如果找到则 忽略括号双语词汇的翻译;否则在括号双语词汇中寻找对应的翻译,所有中文、外语和对应 的翻译构成双语翻译词典。其中,所述步骤Sl包括SlOl 利用搜索引擎的抓取技术抓取互联网上所有的双语网页;S102 从所述双语网页中提取括号双语词汇,提取双语词汇时在网页中查找括号, 然后自右向左遍历左括号左边的内容,以出现语言属性变化或者出现标点符号为界,所述 语言属性为中文或外语,括号前内容与括号中内容构成双语词汇;S103:按照良结构双语词汇提取规则从所述双语网页中提取符合规则结构要求的良结构双语词汇,所述提取规则为网页中具有“<br>. . . </br>'\"<tr>. . . </tr>"和 "<td>. . . </td>”这种结构之间的内容都是结构相同的中外文混杂内容,那么认为这些对应 中外文内容存在翻译关系,构成良结构双语词汇。其中,所述步骤S2包括 S201 根据括号左边以及括号中内容的语言属性进行分类,包括外中双语词汇和 中外双语词汇,提取所述括号双语词汇括号中的中文作为中文语料库;S202:对所有外中双语词汇中括号左边的中文,从左括号自右向左依次利用步骤 S201所得到的中文语料库进行中文字符串匹配,得到所有可以匹配的外中双语词汇,将相 同的外中双语词汇合并,词频相加,其中,匹配上的中文字符串称为所述外中双语词汇的前£双;S203 利用所有中外双语词汇对步骤S202得到的词频进行修正,若某外中双语词 汇的前缀可以在中外双语词汇的集合中找到,则将该中外双语词汇的词频累加到外中双语 词汇上;S204 将每个外语对应的所有括号双语词汇表示为一种树形数据结构来表示,所 述树形数据结构中,外中双语词汇的外语词为根节点,每个前缀建立一前缀节点,每个所述 前缀节点下面连接一系列子节点,每个所述前缀节点是其子节点的子串,从所述树形数据 结构中选择翻译准确的括号双语词汇的方法如下(1)如果一个父节点A的所有子节点中,存在某一子节点B,B的词频占A节点词 频的50%以上,那么保留B节点,同时删除A和A的子节点以及子节点以下的所有节点,;(2)如果一个父节点A的所有子节点中,找不到任何一子节点B,B的词频占A节 点词频的50%以上,则保留A节点,删除A节点以下的所有节点;其中,所述父节点A不包括根节点,至上而下对每个节点按(1) (2)两步进行筛选, 剩下节点对应的双语词汇即为翻译准确的括号双语词汇。其中,所述步骤S3包括S301 将所有中文项相同的双语词汇利用中文结构图表示,所述中文结构图为三 层树形数据结构,中文项为根节点,根节点的子节点为所述中文项所有对应外语项的词根, 所有的外语项又为各自词根的子节点;S302 对同一中文结构图中的任意两个词根a,b,若--<0.2max(len(a), len{b))此时,若freq (a) > freq (b),删除词根b及b所有子节点,同时freq (a)= freq (a) +freq (b),否则,删除词根a及a所有子节点,同时freq (b) = freq (a) +freq (b),此 处dis(a,b)表示词根a,b之间的编辑距离,I本文档来自技高网...
【技术保护点】
一种从互联网上自动提取双语翻译词典的方法,其特征在于,包括以下步骤:S1:从中外双语网页中提取括号双语词汇和良结构双语词汇,并记录词频;所述双语词汇为具有翻译关系的中外双语出现在一起组成的词汇,所述良结构双语词汇为先前经过人工整理的具有准确翻译的双语词汇,所述括号双语词汇为词或短语之后的括号内跟上该词或短语的翻译的双语词汇,包括:外中双语词汇,括号内为外语、括号前为中文的括号双语词汇,中外双语词汇,括号内为中文、括号前为外语的括号双语词汇;S2:对所述提取的括号双语词汇进行截取,得到翻译准确的括号双语词汇;S3:对良结构双语词汇和经过步骤S2后的括号双语词汇进行词根合并和筛选;S4:对给定的中文或外语,首先在良结构双语词汇中查找对应的翻译,如果找到则忽略括号双语词汇的翻译;否则在括号双语词汇中寻找对应的翻译,所有中文、外语和对应的翻译构成双语翻译词典。
【技术特征摘要】
【专利技术属性】
技术研发人员:周立柱,韩军,刘娟,张崇,茹立云,佟子健,
申请(专利权)人:清华大学,北京搜狗科技发展有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。