本发明专利技术公开了一种平行语料的对齐方法及装置,其中,平行语料的对齐方法包括:获得平行语料,并对平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。上述平行语料的对齐方法及装置实施例,由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种平行语料的对齐方法及装置,其中,平行语料的对齐方法包括:获得平行语料,并对平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。上述平行语料的对齐方法及装置实施例,由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。【专利说明】平行语料的对齐方法及装置
本专利技术涉及计算机
,尤其涉及一种平行语料的对齐方法及装置。
技术介绍
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,并将用户检索的相关的信息展示给用户的系统。 具体地,搜索引擎在对用户输入的查询词(query)进行检索时,为了能够返回更多的搜索结果,需要对query中的关键词进行同义替换,并利用替换后的同义词进行检索,这就需要专门进行同义词的挖掘,并保证所挖掘到的同义词有较高的准确率和召回率。 目前,挖掘同义词对的一般做法是:先利用国际商业机器公司(IBM)模型(model)生成一份替换词典,然后利用语言先验知识和替换词典做一次最佳对齐,以生成线上可用的替换词典。 然而,上述方式生成的替换词典准确率低,之后所进行的最佳对齐也不利于后续的进一步优化。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种具有提高替换词典准确率优点的平行语料的对齐方法及装置。 根据本专利技术实施例的平行语料的对齐方法包括:获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典。 上述平行语料的对齐方法实施例,获得平行语料,并对平行语料进行预处理,对预处理后的句对进行规则对齐,并利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐,然后根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典;由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。 根据本专利技术实施例的平行语料的对齐装置,包括:获得模块,用于获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;对齐模块,用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及过滤模块,用于根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典。 上述平行语料的对齐装置实施例,通过获得模块获得平行语料,并对上述平行语料进行预处理,通过对齐模块利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;通过过滤模块根据规则对齐和统计对齐后的句对获得替换短语,并对上述替换短语进行过滤,以获得替换词典;由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。 【专利附图】【附图说明】 图1是本专利技术一个实施例的平行语料的对齐方法的流程图。 图2是本专利技术一个实施例的平行句对进行规则对齐后的示意图。 图3是本专利技术一个实施例的平行语料的对齐装置的结构示意图。 图4是本专利技术另一个实施例的平行语料的对齐装置的结构示意图。 【具体实施方式】 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。 下面参考附图描述本申请实施例的平行语料的对齐方法及装置。 图1是本专利技术一个实施例的平行语料的对齐方法的流程图。如图1所示,该平行语料的对齐方法包括: S101,获得平行语料,并对平行语料进行预处理,以获得预处理后的句对。 在该实施例中,平行语料用于挖掘同义词,其由两个含有同义词的句子组成。例如,假定句子A为:teen films,句子B为:girls movie,则句子A和句子B组成了一个平行句对。 其中,对平行语料进行预处理可以包括但不限于对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。其中,词性识别可包括专名识别。 S102,利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐。 其中,S102可以包括:利用语言的先验知识对预处理后的句对进行规则对齐,并利用语言的先验知识对句对中未经规则对齐的词语进行统计对齐。 具体地,利用语言的先验知识对预处理后的句对进行规则对齐可以为:利用预设词典、形态变换信息和归一化信息中的一种或多种进行规则对齐,当然还可以利用其他语言的先验知识进行规则对齐,其中,预设词典可包括但不限于同义词词典、缩写词词典、停用词词典和词根还原(stem)词典中的一种或几种。对一个平行句对进行了规则对齐之后的结果如图2所示。 从图2可以看出,该平行句对中的部分词语未对齐,在该实施例中,可以利用语言的先验知识对未经规则对齐的词语进行统计对齐,此处可以利用融合了语言先验知识的预设模型进行对齐,并输出用于后续过滤的多种特征。具体地,可以使用包含预设特征的IBM模型对句对中未经规则对齐的词语进行对齐,预设特征包括但不限于语义编辑距离、词向量距离和概率信息中的一种或几种。由于IBM模型最初的设计是用于双语语料的对齐,而不是用于同种语料,所以当应用IBM model算法做同义词挖掘时,可以充分利用同一种语料之间的对齐信息,比如编辑距离,而对于不同语料的平行句对,两个词之间编辑距离小并不能说明什么问题;但是对于改写句对而言,我们处理的是同一种语言之间的平行句对,编辑距离小意味着有可能是同一个词、纠错、形态变换。因此,可以在IBM模型中加入语言的先验知识。 在本专利技术实施例中,在进行规则对齐过程中和应用IBM模型进行统计对齐过程中均利用了语言的先验知识,从而可以提高替换词典的准确率和词语的对齐效率,下面以形态变换为例描述其原因: did和does的词根都是do,通过形态变换,可以把did变成do,也可以把does变成do,这样就可以知道did和does其实是由同一个词变形而来,故二者能对齐,从而提高了替换词典的准确率和词语的对齐效率。 S103,根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。 针对规则对齐和统计对齐后的句对,可以利用KM算法或其他对齐算法进行对齐,即进行了一次最佳对齐,以抽取出替换短语,其中,KM算法是一种二分图的最佳匹配算法。由此可见,本专利技术实施例中的最佳对齐与之前进行的规则对齐和统计对齐是分开实现的,这种实现方式相对于与现有的混合对齐方式,更有利于后续的进一步优化,从而可以提高对齐效率。 之后,可以利用机器学习模型进行过滤,以生成线上可用的替换词典,其中,替换词典中可以包括替换词和替换短语。 上述平行语料的对齐方法实施例,获得平行语料,并对平行语料进行预处理,对预处理后的句对进行规则对齐,并利用语言的先验知识对预处理本文档来自技高网...
【技术保护点】
一种平行语料的对齐方法,其特征在于,包括:获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典。
【技术特征摘要】
【专利技术属性】
技术研发人员:石磊,曾增烽,林英展,李朋凯,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。