平行语料的对齐方法及装置制造方法及图纸

技术编号：10915289 阅读：118 留言：0更新日期：2015-01-14 20:58

本发明专利技术公开了一种平行语料的对齐方法及装置，其中，平行语料的对齐方法包括：获得平行语料，并对平行语料进行预处理，以获得预处理后的句对；利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及根据规则对齐和统计对齐后的句对获得替换短语，并对替换短语进行过滤，以获得替换词典。上述平行语料的对齐方法及装置实施例，由于在规则对齐和统计对齐过程中利用了语言的先验知识，所以大大提高了替换词典的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种平行语料的对齐方法及装置，其中，平行语料的对齐方法包括：获得平行语料，并对平行语料进行预处理，以获得预处理后的句对；利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及根据规则对齐和统计对齐后的句对获得替换短语，并对替换短语进行过滤，以获得替换词典。上述平行语料的对齐方法及装置实施例，由于在规则对齐和统计对齐过程中利用了语言的先验知识，所以大大提高了替换词典的准确率。【专利说明】平行语料的对齐方法及装置
本专利技术涉及计算机
，尤其涉及一种平行语料的对齐方法及装置。
技术介绍
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，并将用户检索的相关的信息展示给用户的系统。具体地，搜索引擎在对用户输入的查询词(query)进行检索时，为了能够返回更多的搜索结果，需要对query中的关键词进行同义替换，并利用替换后的同义词进行检索，这就需要专门进行同义词的挖掘，并保证所挖掘到的同义词有较高的准确率和召回率。目前，挖掘同义词对的一般做法是:先利用国际商业机器公司(IBM)模型(model)生成一份替换词典，然后利用语言先验知识和替换词典做一次最佳对齐，以生成线上可用的替换词典。然而，上述方式生成的替换词典准确率低，之后所进行的最佳对齐也不利于后续的进一步优化。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种具有提高替换词典准确率优点的平行语料的...
平行语料的对齐方法及装置

【技术保护点】
一种平行语料的对齐方法，其特征在于，包括：获得平行语料，并对所述平行语料进行预处理，以获得预处理后的句对；利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐；以及根据规则对齐和统计对齐后的句对获得替换短语，并对所述替换短语进行过滤，以获得替换词典。

【技术特征摘要】

【专利技术属性】
技术研发人员：石磊，曾增烽，林英展，李朋凯，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人