本发明专利技术实施例公开了一种省略恢复方法,所述方法包括:在对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;依据所述候选代词及所述候选名词,确定所述缺省词的候选对;确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省词;本发明专利技术实施例还公开了一种问答系统。
【技术实现步骤摘要】
本专利技术涉及问答系统技术,具体涉及一种应用于问答系统的省略恢复方法及问答系统。
技术介绍
在用户双方进行沟通时,由于对话情景、对话者说话习惯等原因的限制,通常存在有对话中某些词汇被省略的现象。由于存在有对话情景的限制,即使对话中某些词汇被省略,对于用户来说,也很容易理解对方的意思。但如果对话的一方为问答系统时,由于缺乏相应的知识背景,问答系统往往不能正确理解用户的省略表述,如此,很容易出现问答系统输出错误答案给用户这一问题。通常采用对省略表述进行恢复即省略恢复的方法,来恢复出被用户省略的句子表述,得到完整句子,利用恢复出的完整句子来解决问答系统输出的答案错误率较高的问题。目前,比较常用的省略恢复方法包括有以下几种:基于规则的零代词消解方法、基于句法分析树的零代词消解方法;随着语料规模的不断加大,这些方法对于省略部分恢复的正确性有所降低。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供一种省略恢复方法及问答系统,能够提高对省略部分的识别率,提高省略恢复的正确率。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种省略恢复方法,所述方法包括:在对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;依据所述候选代词及所述候选名词,确定所述缺省词的候选对;确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省ο上述方案中,所述方法包括:获取模型系数;依据第一概率、第二概率及所述模型系数,建立联合模型;所建立的所述联合模型为:Score = al*f (w, t) +a2*f (w, t, c);其中,Score为所述联合模型的目标分值,由概率值来表征;al、a2为模型系数;f(w, t)表示用一个候选代词作为缺省词的概率;f (w,t,c)表示在一个候选对中用一个候选名词替换为相应候选代词的概率;《表示在所述句子中出现的位于缺省词之后的第一个词,t表示候选代词,C表示候选名词;在所述候选对中,选取使所建立的联合模型的目标分值取得最大值的候选对;确定所选取的候选对中的候选名词为所述缺省词。上述方案中,在获取所述缺省词的候选代词以及候选名词之前,所述方法还包括:对所述句子进行词的划分,形成至少两个词;相应的,获取所述缺省词的候选代词以及候选名词,包括:确定所述至少两个词中的一个词在该词的位置之前存在有缺省词时,利用分类器获取用于替代该缺省词的至少一个候选代词、及每个候选代词作为该缺省词的概率,确定所述概率为第一概率;在所述对话的所述句子之前的η个句子中,提取所出现的所有名词,并将所提取的名词作为所述候选名词;其中,η为预先设置的正整数。上述方案中,依据所述候选代词及所述候选名词,确定所述缺省词的候选对,包括:将所述缺省词的所有候选代词与所有候选名词分别进行两两组合,形成针对所述缺省词的至少一个候选对,所述候选对中的第一个元素为所述缺省词、第二个元素为候选代词、第三个元素为候选名词;在确定所述缺省词的至少一个候选对时,利用分类器获取到每一个候选对中的候选名词将相应候选代词替换掉的概率,确定所述概率为第二概率。上述方案中,所述方法还包括:将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型,得到所述联合模型的至少一个概率值;选取使所述联合模型取得最大概率值的候选对;确定使所述联合模型取得最大概率值的候选对中的候选名词为缺省词,添加所述候选名词至所述句子的相应位置,以恢复所述句子的完整性。本专利技术实施例还提供了一种问答系统,所述系统包括:第一获取单元,用于在对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;第一确定单元,用于依据所述候选代词及所述候选名词,确定所述缺省词的候选对;第二确定单元,用于确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;第三确定单元,用于依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省词。上述方案中,所述系统还包括:第二获取单元、第一建立单元;所述第二获取单元,用于获取模型系数;所述第一建立单元,用于依据第一概率、第二概率及所述模型系数,建立联合模型;所述联合模型为: Score = al*f (w, t) +a2*f (w, t, c);其中,Score为所述联合模型的目标分值,由概率值来表征;al、a2为模型系数;f(w, t)表示用一个候选代词作为缺省词的概率;f (w,t,c)表示在一个候选对中用一个候选名词替换为相应候选代词的概率;《表示在所述句子中出现的位于缺省词之后的第一个词,t表示候选代词,C表示候选名词;相应的,所述第三确定单元,用于:在所述候选对中,选取使所建立的联合模型的目标分值取得最大值的候选对;确定所选取的候选对中的候选名词为所述缺省词。上述方案中,所述系统还包括:第一划分单元,用于对所述句子进行词的划分,形成至少两个词;相应的,所述第一获取单元,用于确定所述至少两个词中的一个词在该词的位置之前存在有缺省词时,利用分类器获取用于替代该缺省词的至少一个候选代词、及每个候选代词作为该缺省词的概率,确定所述概率为第一概率;在所述对话的所述句子之前的η个句子中,提取所出现的所有名词,并将所提取的名词作为所述候选名词;其中,η为预先设置的正整数。上述方案中,所述第二确定单元,还用于:将所述缺省词的所有候选代词与所有候选名词分别进行两两组合,形成针对所述缺省词的至少一个候选对,所述候选对中的第一个元素为所述缺省词、第二个元素为候选代词、第三个元素为候选名词;在确定所述缺省词的至少一个候选对时,利用分类器获取到每一个候选对中的候选名词将相应候选代词替换掉的概率,确定所述概率为第二概率。上述方案中,所述系统还包括第一选取单元;其中,所述第一选取单元,用于将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型,得到所述联合模型的至少一个概率值;选取使所述联合模型取得最大概当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种省略恢复方法,其特征在于,所述方法包括:在对话中句子有缺省词时,获取所述缺省词的候选代词以及候选名词;依据所述候选代词及所述候选名词,确定所述缺省词的候选对;确定第一概率和第二概率,所述第一概率用于表示所述候选代词作为所述缺省词的概率,所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率;依据所述第一概率和所述第二概率,确定所述候选对中的候选名词为所述缺省词。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈虹,罗圣美,尹庆宇,张宇,
申请(专利权)人:中兴通讯股份有限公司,哈尔滨工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。