由网页中提取双语平行正文的方法和系统,涉及语料获取技术领域。本发明专利技术克服了现有的语料库收集效率低和规模不足的问题。本发明专利技术所述的系统包括用于存储大规模随机爬取的网页及其属性的网页数据库;用于提取每个网页的标签字符串、正文内容及相关信息的正文信息提取模块;用于根据网页数据库中的所有网页的正文内容确定混合网页或单语种网页的网页类型判别模块;用于对混合网页中的双语文本进行互译判别、将判定为互译文本的双语文本保存至双语语料库的混合网页处理模块;用于针对每一个未标识匹配的单语种网页遍历网页数据库中的其它单语种网页,获得存有互译文本的两个单语种网页,并将两个网页中的正文内容保存至双语语料库单语种网页处理模块。
【技术实现步骤摘要】
本专利技术涉及语料获取
,具体涉及双语平行语料的获取
技术介绍
统计机器翻译是机器翻译的方法之一,基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。近十年来,统计机器翻译的研究取得了很大进展,统计方法逐渐成为国际上机器翻译研究的主流方法。目前常用的机器翻译系统大多采用统计方法,比如Google翻译、Bing翻译和百度翻译。在统计机器翻译技术中,平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料,是建立高性能统计机器翻译系统的必要条件。目前的平行语料都有特定来源,它们的规模有限。
技术实现思路
本专利技术所要解决的技术问题是提供一种从网页中提取双语平行语料的方法与系统,以克服现有的语料库收集效率低和规模不足的问题。本专利技术提供了由网页中提取双语平行正文的方法和系统。本专利技术所述的由网页中提取双语平行正文的系统包括网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储;正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库;网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页;混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。本专利技术所述的由网页中提取双语平行正文的方法包括如下步骤存储大规模随机爬取的网页及其属性至网页数据库的步骤;通过对已存储的网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储的步骤,该步骤具体包括计算每个网页的域名中的主域名和每个子域的哈希值步骤,将主域名的哈希值相同的所有网页存在一个大类中的步骤,将该大类中所有网页中下一级子域名的哈希值相同的所有网页再划分到一个子类中的步骤,以此类推,将所有网页分类存储的步骤;提取每个网页的标签字符串的步骤;提取该网页中的正文内容的步骤;记录提取的标签字符串以及相应网页正文内容的编码类型和正文长度,并存储至网页数据库的步骤;对网页数据库中的所有网页的正文内容进行语言种类判断的步骤,该步骤进一步包括当判定所述正文内容中存在规模相当的双语文本时,判定该混合网页为混合网页的步骤,否则判断该网页为单语种网页的步骤;对混合网页中的双语文本进行互译判别的步骤,该步骤进一步包括当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库的步骤;遍历网页数据库中的每一个未标识匹配的单语种网页进行处理的步骤,对每个单语种网页的处理过程包括将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别的步骤,该步骤中选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页;将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配的步骤。上述正文内容的长度是根据正文内容中的字符数量计算获得正文长度。本专利技术克服了现有
的技术偏见,将互联网作为语料获取对象,由此带来的技术效果有I、由于互联网中存在大量的双语平行文本,从互联网提取出双语平行文本加以训练成双语语料,获取信息量大,语种丰富。2、由于互联网中的信息是不断更新的,因此将互联网作为语料获取对象获得的双语语料也能够达到持续的更新和增长的效果。采用本专利技术获得双语语料,能够大大加快语料的收集效率,也能解决特定来源的语料规模不足的问题。附图说明图I为本专利技术所述的由网页中提取双语平行正文的系统的工作原理示意图。具体实施例方式具体实施方式一、本实施方式所述的由网页中提取双语平行正文的系统包括网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储;正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库;网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页;混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。所述正文内容的长度是根据正文内容中的字符数量计算获得正文长度。具体实施方式二、本实施方式是对具体实施方式一所述的网页中提取双语平行正文的系统中网页属性的进一步说明,本实施方式中,所述网页属性包括网页的URL地址和爬取的时间。具体实施方式三、本实施方式是对具体实施方式一所述的由网页中提取双语平行正文的系统的正文信息提取模块的进一步限定,所述正文信息提取模块还用于对提取的网页的标签字符串进行判断,当所述标签字符串为<html>、〈body〉、<td>、、〈span〉或<div>时,继续提取该网页中的正文信息。本实施方式中,在正文信息提取模块中增加了判断标签字符串的功能,即有选择型的提取网页的正文,由于在上述几种标签下的文本属于正文的可能较高,因此提取上述标签包含的内容,进而减少数据处理量、增加提取信息的可用性的几率。具体实施方式四、本实施方式是对具体实施方本文档来自技高网...
【技术保护点】
由网页中提取双语平行正文的系统,其特征在于,该系统包括:网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指:将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储;正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库;网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页;混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。...
【技术特征摘要】
1.由网页中提取双语平行正文的系统,其特征在于,该系统包括 网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储; 正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库; 网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页; 混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。2.根据权I所述的由网页中提取双语平行正文的系统,其特征在于,正文信息提取模块,还用于对提取的网页的标签字符串进行判断,当所述标签字符串为〈body〉、<td>、、〈span〉或<div>时,继续提取该网页中的正文信息。3.根据权I所述的由网页中提取双语平行正文的系统,其特征在于,正文信息提取模块,还用于在提取正文内容之后,判断正文内容的长度,并在所述长度大于3(Γ80个字符的情况下,继续记录相应信息,否则记录该网页的URL,并将该网页从网页数据库中删除。4.根据权I所述的由网页中提取双语平行正文的系统,其特征在于,所述互译判别的方法为利用字典遍历获得互译双语文本中的词语,并将这些词语作为锚点,判断它们在双语文本中位置是否匹配,如果匹配率大于设定值,所述设定值的取值范围是O. 3^0. 7,则判定所述双语文本为互译文本。5.根据权I所述的由网页中提取双语平行正文的方法,其特征在于,所述规模相当的双语文本是指两种语言文本的长度比例在设定范围内。6.由网页中提取双语平行正文的方法,其特征在于,该方法包括如下步骤 ...
【专利技术属性】
技术研发人员:李文强,刘飞,张宇,刘挺,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。