一种句对匹配方法、装置和用于匹配句对的装置制造方法及图纸

技术编号:29937322 阅读:17 留言:0更新日期:2021-09-04 19:16
本申请实施例公开了一种句对匹配方法、装置和用于匹配句对的装置。该方法的实施例包括:从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,句段集中的每个句段包括目标语言的语句以及语句的上下文;将双语数据集中的双语句对与句段集中的句段进行匹配;双语句对中包括源语言的第一语句和对应目标语言的第二语句;对于双语数据集中的每一个双语句对,确定句段集中与双语句对相匹配的句段,将网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,与双语句对相匹配的句段为同时包含双语句对中的第一语句与第二语句的句段。该实施方式提高了句对匹配效率。配效率。配效率。

【技术实现步骤摘要】
一种句对匹配方法、装置和用于匹配句对的装置


[0001]本申请实施例涉及计算机
,具体涉及一种句对匹配方法、装置和用于匹配句对的装置。

技术介绍

[0002]随着计算机技术的发展,具备翻译功能的客户端应用越来越多。这类客户端应用可存储大量双语句对,供用户查询。根据用户需求,双语例句需要注明有效的网页来源信息,因此,针对需要上线的双语句对,需要查询来源网页。
[0003]现有技术中,对于某一待上线的双语句对,通常需要从包含海量网页的网页库中检索该双语句对中的两个语句,从而确定其来源网页。由于网页库以及双语句对的数据规模较大,这种方式通常耗时较大,以致双语句对的匹配效率较低。

技术实现思路

[0004]本申请实施例提出了一种句对匹配方法、装置和用于匹配句对的装置,以解决现有技术中双语句对的匹配效率较低的技术问题。
[0005]第一方面,本申请实施例提供了一种句对匹配方法,该方法包括:从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,所述句段集中的每个句段包括目标语言的语句以及所述语句的上下文;将双语数据集中的双语句对与所述句段集中的句段进行匹配;所述双语句对中包括源语言的第一语句和对应目标语言的第二语句;对于所述双语数据集中的每一个双语句对,确定所述句段集中与所述双语句对相匹配的句段,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,所述与所述双语句对相匹配的句段为同时包含所述双语句对中的第一语句与第二语句的句段。
[0006]优选地,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:
[0007]遍历所述句段集中的每个句段,从所述句段包括的目标语言的语句中提取目标语言片段,得到目标语言片段集;
[0008]将所述双语数据集中双语句对包括的第二语句与所述目标语言片段集中的目标语言片段进行匹配,以确定所述目标语言片段集中与第二语句一致的目标片段;
[0009]确定所述双语数据集中与所述目标片段一致的第二语句所属的目标双语句对,若所述目标双语句对包括的第一语句位于所述目标片段所属的句段中,则确定所述目标双语句对与所述目标片段所属的句段相匹配。
[0010]优选地,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:
[0011]遍历所述句段集中的每个句段,从所述句段包括的上下文中提取源语言片段,得到源语言片段集;
[0012]将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配,以确定所述源语言片段集中与第一语句一致的目标片段;
[0013]确定所述双语数据集中与所述目标片段一致的第一语句所属的目标双语句对,若
所述目标双语句对包括的第二语句位于所述目标片段所属的句段中,则确定所述目标双语句对与目标片段所属的句段相匹配。
[0014]优选地,所述将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配,包括:
[0015]基于所述双语数据集中双语句对包括的第一语句,建立字典树;
[0016]基于所述字典树,将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配。
[0017]优选地,在将双语数据集中的双语句对与所述句段集中的句段进行匹配之前,所述方法还包括:
[0018]从所述双语数据集中双语句对包括的每个第一语句中截取长度为预设值的至少一个子句,得到子句集;
[0019]从所述句段集中删除不包含所述子句集中的任一子句的句段。
[0020]优选地,在将双语数据集中的双语句对与所述句段集中的句段进行匹配之前,所述方法还包括:
[0021]将所述双语数据集划分为多个双语数据子集;
[0022]从各双语数据子集中双语句对包括的每个第一语句中截取长度为预设值的至少一个子句,得到与各双语数据子集对应的子句集;
[0023]对于每一个双语数据子集,将所述双语数据子集对应的子句集作为目标子句集,将所述句段集中包含所述目标子句集中的子句的句段作为目标句段,得到与该双语数据子集对应的目标句段集;
[0024]以及,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:
[0025]将各双语数据子集中的双语句对与相应的目标句段集中的句段进行匹配。
[0026]优选地,所述将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页,包括:
[0027]检测所述网页库中与所确定的句段对应的网页所在的网站是否为有效网站;
[0028]响应于所述网站为有效网站,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页。
[0029]第二方面,本申请实施例提供了一种句对匹配装置,该装置包括:抽取单元,被配置成从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,所述句段集中的每个句段包括目标语言的语句以及所述语句的上下文;匹配单元,被配置成将双语数据集中的双语句对与所述句段集中的句段进行匹配;所述双语句对中包括源语言的第一语句和对应目标语言的第二语句;确定单元,被配置成对于所述双语数据集中的每一个双语句对,确定所述句段集中与所述双语句对相匹配的句段,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,所述与所述双语句对相匹配的句段为同时包含所述双语句对中的第一语句与第二语句的句段。
[0030]优选地,所述装置包括:
[0031]抽取单元,被配置成从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,所述句段集中的每个句段包括目标语言的语句以及所述语句的上下文;
[0032]匹配单元,被配置成将双语数据集中的双语句对与所述句段集中的句段进行匹
配;所述双语句对中包括源语言的第一语句和对应目标语言的第二语句;
[0033]确定单元,被配置成对于所述双语数据集中的每一个双语句对,确定所述句段集中与所述双语句对相匹配的句段,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,所述与所述双语句对相匹配的句段为同时包含所述双语句对中的第一语句与第二语句的句段。
[0034]优选地,所述匹配单元,进一步被配置成:
[0035]遍历所述句段集中的每个句段,从所述句段包括的目标语言的语句中提取目标语言片段,得到目标语言片段集;
[0036]将所述双语数据集中双语句对包括的第二语句与所述目标语言片段集中的目标语言片段进行匹配,以确定所述目标语言片段集中与第二语句一致的目标片段;
[0037]确定所述双语数据集中与所述目标片段一致的第二语句所属的目标双语句对,若所述目标双语句对包括的第一语句位于所述目标片段所属的句段中,则确定所述目标双语句对与所述目标片段所属的句段相匹配。
[0038]优选地,所述匹配单元,进一步被配置成:
[0039]遍历所述句段集中的每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种句对匹配方法,其特征在于,所述方法包括:从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,所述句段集中的每个句段包括目标语言的语句以及所述语句的上下文;将双语数据集中的双语句对与所述句段集中的句段进行匹配;所述双语句对中包括源语言的第一语句和对应目标语言的第二语句;对于所述双语数据集中的每一个双语句对,确定所述句段集中与所述双语句对相匹配的句段,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,所述与所述双语句对相匹配的句段为同时包含所述双语句对中的第一语句与第二语句的句段。2.根据权利要求1所述的方法,其特征在于,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:遍历所述句段集中的每个句段,从所述句段包括的目标语言的语句中提取目标语言片段,得到目标语言片段集;将所述双语数据集中双语句对包括的第二语句与所述目标语言片段集中的目标语言片段进行匹配,以确定所述目标语言片段集中与第二语句一致的目标片段;确定所述双语数据集中与所述目标片段一致的第二语句所属的目标双语句对,若所述目标双语句对包括的第一语句位于所述目标片段所属的句段中,则确定所述目标双语句对与所述目标片段所属的句段相匹配。3.根据权利要求1所述的方法,其特征在于,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:遍历所述句段集中的每个句段,从所述句段包括的上下文中提取源语言片段,得到源语言片段集;将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配,以确定所述源语言片段集中与第一语句一致的目标片段;确定所述双语数据集中与所述目标片段一致的第一语句所属的目标双语句对,若所述目标双语句对包括的第二语句位于所述目标片段所属的句段中,则确定所述目标双语句对与目标片段所属的句段相匹配。4.根据权利要求3所述的方法,其特征在于,所述将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配,包括:基于所述双语数据集中双语句对包括的第一语句,建立字典树;基于所述字典树,将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配。5.根据权利要求1所述的方法,其特征在于,在将双语数据集中的双语句对与所述句段集中的句段进行匹配之前,所述方法还包括:从所述双语数据集中双语句对包括的每个第一语句中截取长度为预设值的至少一个子句,得到子句集;从所述句段集中删除不包含所述子句集中的任一子句的句段。6.根据权利要求1所述的方法,其特征在于,在将双语数据集中的双语句对与所述句段集中的句段进行匹配之前,所述方法还包括:
将所述双语数据集划分为多个双语数据子集;从各双语数据子集中双语句对包括的每个第一语句中截取长度为预设值的至少一个子句,得到与各双语数据子集对应的子句集;对于每一个双语数据子集,将所述双语数据子集对应的子句集作为目标子句集,将所述句段集中包含所述目标子句集中的子句的句段作为目标句段,得到与该双语数据子集对应的目标句段集;以及,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:将各双语数据子集中的双语句对与相应的目标句段集中的句段进行匹配。7.根据权利要求1所述的方法,其特征在于,所述将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页,包括:检测所述网页库中与所确定的句段对应的网页所在的网站是否为有效网站;响应于所述网站为有效网站,将所述网页库中与所确定的句段对应的网...

【专利技术属性】
技术研发人员:杨正彪许静芳鲁涛戴磊李质轩殷明明王青龙
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1