本发明专利技术提供了一种获取复述短语的方法,该方法包括:利用统计机器翻译系统执行一次翻译和二次翻译,依次得到一次翻译结果和二次翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻译为从中间短语到复述短语的翻译;根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的关联关系。本发明专利技术还提供了一种获取复述短语的装置、一种基于复述短语的问题改写方法及装置。
【技术实现步骤摘要】
本专利技术涉及信息检索技术,尤其涉及一种获取复述短语的方法及装置、基于复述 短语的问题改写方法及装置。
技术介绍
在信息检索的问答系统中,问句与陈述句相比,能提供一些额外信息,如疑问词、 问题类型和焦点词等。因此,在实际应用中,为了满足对问句的有效改写,可以预先设置针 对特定问句的改写模板;可以使用语义词典来进行关键词扩展;还可以使用网络来挖掘有 用的查询扩展资源。 然而,以上问题的改写方法存在明显缺陷:虽然根据问句得到固定数量的相关查 询短语,但没有考虑语义信息;且需要根据人工构建规则建立一个庞大的语义词典。因此, 在语义词典不足以覆盖所有的问句信息,或者在不考虑语义信息的情况下,根据问句得到 固定数量的相关查询短语来通过问答系统进行问句扩展,会严重降低问答系统的精确率。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种获取复述短语的方法及装置、基于复述短 语的问题改写方法及装置,以获得源短语到与复述短语的关联关系,为高质量的问题改写 奠定基础,从而有效提高问答系统的精确率。 为达到上述目的,本专利技术实施例的技术方案是这样实现的: 本专利技术实施例提供一种获取复述短语的方法,该方法包括: 利用统计机器翻译系统执行一次翻译和二次翻译,依次得到一次翻译结果和二次 翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻译为从中间短语到复 述短语的翻译; 根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的关联关系。 上述方案中,根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的 关联关系包括: 根据所述一次翻译结果确定中间短语的出现概率和从源短语到中间短语的转换 概率; 根据所述二次翻译结果确定复述短语的出现概率和从中间短语到复述短语的转 换概率; 根据所确定的源短语的出现概率、从源短语到中间短语的转换概率、中间短语的 出现概率、以及从中间短语到复述短语的转换概率,进一步确定从源短语到复述短语的转 换概率。 本专利技术实施例还提供一种基于复述短语的问题改写方法,通过统计机器翻译系统 对每个源短语进行翻译,得到源短语到复述短语的关联关系;该方法还包括: 对用户输入的问句进行查询关键词的筛选; 利用源短语到复述短语的关联关系对筛选出的查询关键词进行查询扩展,得到扩 展后的问句。 上述方案中,通过统计机器翻译系统对每个源短语进行翻译,得到源短语到复述 短语的关联关系包括: 利用统计机器翻译系统执行一次翻译和二次翻译,依次得到一次翻译结果和二次 翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻译为从中间短语到复 述短语的翻译; 根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的关联关系。 本专利技术实施例又提供一种获取复述短语的装置,该装置包括:翻译模块和确定模 块;其中, 所述翻译模块,用于利用统计机器翻译系统执行一次翻译和二次翻译,依次得到 一次翻译结果和二次翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻 译为从中间短语到复述短语的翻译; 所述确定模块,用于根据所述一次翻译结果和二次翻译结果确定从源短语到复述 短语的关联关系。 上述方案中,所述确定模块具体用于,根据所述一次翻译结果确定中间短语的出 现概率和从源短语到中间短语的转换概率; 根据所述二次翻译结果确定复述短语的出现概率和从中间短语到复述短语的转 换概率; 根据所确定的源短语的出现概率、从源短语到中间短语的转换概率、中间短语的 出现概率、以及从中间短语到复述短语的转换概率,进一步确定从源短语到复述短语的转 换概率。 本专利技术实施例还提供一种基于复述短语的问题改写装置,该装置包括:获取模块、 关键词筛选模块、以及查询扩展模块;其中, 所述获取模块,用于通过统计机器翻译系统对每个源短语进行翻译,得到源短语 到复述短语的关联关系; 所述关键词筛选模块,用于对用户输入的问句进行查询关键词的筛选; 所述查询扩展模块,用于利用源短语到复述短语的关联关系对筛选出的查询关键 词进行查询扩展,得到扩展后的问句。 上述方案中,所述获取模块具体用于,利用统计机器翻译系统执行一次翻译和二 次翻译,依次得到一次翻译结果和二次翻译结果;所述一次翻译为从源短语到中间短语的 翻译;所述二次翻译为从中间短语到复述短语的翻译;根据所述一次翻译结果和二次翻译 结果确定从源短语到复述短语的关联关系。 上述方案中,所述关键词筛选模块包括划分模块、第一确定模块、第二确定模块、 以及筛选模块;其中, 所述划分模块,用于对用户输入的问句进行短语块划分,得到若干个查询短语; 所述第一确定模块,用于计算确定每个查询短语在所述问句中的权重系数; 所述第二确定模块,用于利用所有查询短语在所述问句中的权重系数确定权重系 数阈值; 所述筛选模块,用于根据所述权重系数阈值从所述查询短语中筛选出所述问句的 查询关键词。 本专利技术实施例所提供的获取复述短语的方法及装置、基于复述短语的问题改写方 法及装置,利用统计机器翻译系统执行一次翻译和二次翻译,依次得到一次翻译结果和二 次翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻译为从中间短语到 复述短语的翻译;根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的关联 关系。如此,通过统计机器翻译系统对每个源短语进行翻译,得到源短语到复述短语的关联 关系,为1?质量的问题改与奠定基础,进而有效提1?问答系统的精确率。【附图说明】 图1为本专利技术实施例获取复述短语的方法的实现流程示意图; 图2为本专利技术实施例基于复述短语的问题改写方法的实现流程示意图; 图3为本专利技术实施例获取复述短语的装置的组成结构示意图; 图4为本专利技术实施例基于复述短语的问题改写装置的组成结构示意图; 图5为本专利技术实施例基于复述短语的问题改写装置中关键词筛选模块的组成结 构示意图。【具体实施方式】 下面结合附图及具体实施例对本专利技术再作进一步详细的说明。 在本专利技术实施例中,利用统计机器翻译系统执行一次翻译和二次翻译,依次得到 一次翻译结果和二次翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻 译为从中间短语到复述短语的翻译;根据所述一次翻译结果和二次翻译结果确定从源短语 到复述短语的关联关系。 进一步地,在通过统计机器翻译系统获得从源短语到复述短语的关联关系的基础 上,对用户输入的问句进行查询关键词的筛选;利用源短语到复述短语的关联关系对筛选 出的查询关键词进行查询扩展,得到扩展后的问句。如此,能够实现高质量的问题改写,进 而有效提1?问答系统的精确率。 这里,为了保证问答系统的精确率,在通过统计机器翻译系统获得从源短语到复 述短语的关联关系的过程中,可以通过现有技术中比较成熟的问答短语数据库来获取足够 多的源短语。 图1为本专利技术实施例获取复述短语的方法的实现流程示意图,如图1所示,本专利技术 实施例获取复述短语的方法包括: 步骤S10 :利用统计机器翻译系统执行一次翻译和二次翻译,依次得到一次翻译 结果和二次翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻译为从中 间短语到复述短语的翻译; 步骤S20 :根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的关 耳关关系。 在本专利技术实施例中,所述步骤S20包本文档来自技高网...
【技术保护点】
一种获取复述短语的方法,其特征在于,所述方法包括:利用统计机器翻译系统执行一次翻译和二次翻译,依次得到一次翻译结果和二次翻译结果;所述一次翻译为从源短语到中间短语的翻译;所述二次翻译为从中间短语到复述短语的翻译;根据所述一次翻译结果和二次翻译结果确定从源短语到复述短语的关联关系。
【技术特征摘要】
【专利技术属性】
技术研发人员:罗圣美,陈虹,张伟男,张宇,
申请(专利权)人:中兴通讯股份有限公司,哈尔滨工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。