当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于评分机制的反馈型问题类型分类器系统及其工作方法技术方案

技术编号:13502671 阅读:78 留言:0更新日期:2016-08-10 00:24
本发明专利技术涉及一种基于评分机制的反馈型问题类型分类器系统及其工作方法,属于自然语言处理领域。该系统包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,分词模块用于对训练样本问题分词获得带词性标注的词组集;评分模块用于对带词性标注的词组集进行分析,得到词组的评分权重;词向量模块用于生成该分词词组集对应的词向量;分类模块将对分类器进行迭代、训练,得到类别判别结果,并于目标类别标注相比较,将其结果并反馈到评分模块。本发明专利技术公布的问题类型分类器结合评分机制和反馈机制,可达到较为准确识别问题类型的目的。

【技术实现步骤摘要】

本专利技术涉及一种基于评分机制的反馈型问题类型分类器系统及其工作方法,属于自然语言处理的

技术介绍
问答系统是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。它能够满足人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。问题分析即通过对问题句法、语义结构等进行解析,获取该问题的关键词,提取问题的焦点,确定问题类型和答案类型等。问题分析部分主要完成以下几部分的工作:确定问题类型、提取问题的关键词、依据问题的类型等因素对关键词进行适当的扩展。自动问答系统都以问题分析作为起始阶段,并且几乎所有的自动问答系统的组件在某种程度上都依赖于信息产生的问题分析;而确定问题类型是问题分析的首要阶段,问答系统能否准确的回答问题与问题类型是否能正确判定有着非常紧密的关系。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于评分机制的反馈型问题类型分类器系统;本专利技术还提供了上述系统的工作方法;本专利技术通过对训练样本问题的分词词组间的依赖关联关系的强弱进行分析,建立一套适用于判别问题提问类型的评分机制;并结合命名实体识别的词性标注,降低词库模板向量和样本词向量的维度,提高训练样本问题类型的识别效率,同时将分类类别的判断误差反馈于评分模块,得到高精确度的反馈型问题类型分类器。反馈机制的加入使问题类型分类器系统r>更精准化、智能化。本专利技术技术方案为:一种基于评分机制的反馈型问题类型分类器系统,包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,所述训练样本问题集模块、所述分词模块、所述评分模块、所述词向量模块、所述分类模块、所述类别比较模块依次连接,所述分词模块、所述词库模块、所述词向量模块依次连接,所述分词模块连接所述词向量模块,所述训练样本问题集模块连接所述类别比较模块,所述类别比较模块连接所述评分模块;所述训练样本问题集模块用于:对每个训练样本问题人工划分类别,得到训练样本问题集;并人工标注得到所述训练样本问题集中的每个训练样本问题的类别标注;所述分词模块用于:对训练样本问题集中的训练样本问题进行分词,获得带词性标注的词组集,并将带词性标注的词组集分别发送给所述评分模块及所述词向量模块;所述词库模块用于:存储所述分词模块中全部训练样本问题的无重复的分词词组及相应词性,并发送到所述词向量模块;所述评分模块用于:对带词性标注的词组集进行句法分析,获得词组间的依赖关系,生成词图,得到词组的评分权重;所述词向量模块用于:接收词库模块中分词词组及相应词性,与所述词向量模块当前处理的带词性标注的词组集对比,生成当前处理的带词性标注的词组集对应的词向量,并将得到的词向量发送至所述分类模块;所述分类模块用于:对词向量进行迭代、训练,收敛到最优类别判别结果;所述类别比较模块用于:将最优类别判别结果与所述训练样本问题集中相应训练样本问题的类别标注相比较,其结果并反馈到所述评分模块。根据本专利技术优选的,所述分词模块包括依次连接的分词单元、词性标注单元、词性纠正单元、过滤停止词单元、命名实体识别单元;所述分词单元用于:根据训练样本问题的具体语境含义拆分成一系列词组,所述训练样本问题是指所述训练样本问题集中的单个训练样本问题;所述词性标注单元用于:为每个词组标注一个正确的词性;即:确定每个词是名词、动词、形容词或其他词性的过程;所述词性纠正单元用于:结合训练样本问题的具体语境,对多词性词组分析词组成分及各词组间的依赖关系,最终确定该词组词性;例如,“教授教授学生知识”,词性标注结果为“教授/n.,教授/n.,学生/n.,知识/n.”,其中“教授”有两个词性,此时需要结合语境纠正词性,词性纠正后的分词结果为“教授/n.,教授/v.,学生/n.,知识/n.”;所述过滤停止词单元用于:过滤无具体含义的词或词组;为后续处理减少干扰,提高准确度;所述命名实体识别单元用于:识别训练样本问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。所述具有特定意义的实体,例如,人名、地名、机构名、专有名词等。根据本专利技术优选的,所述评分模块包括依次连接的句法分析单元、词图单元以及加权评分单元;所述句法分析单元用于:根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;所述词图单元用于:判断组间是否存在的依赖关系,若两词组间存在依赖关系,则这两词组间用无向边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的词组评分提供支持;所述加权评分单元用于:根据所述词图单元生成的训练样本问题的词图,得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所述词向量模块,与所述词向量模块生成的所述词向量相加权。以保留所述训练样本的重要信息。根据本专利技术优选的,所述词向量模块包括:依次连接的词库模板单元及样本词向量单元;所述词库模板单元用于:根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板,用特殊名词的词性来代替相应的特殊名词;降低了词库模板的维度,加快了所述分类模块的分类速度,提高了所述训练样本的类别判别效率。所述样本词向量单元用于:将所述训练样本问题中的分词词组集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述命名实体识别单元中识别的特殊名词用其相应的词性代替,将得到的转换后的分词词组集与所述词库模板单元生成的词库模板匹配,若匹配则该位置赋值为对应词组或其词性的权值,从而得到所述训练样本问题的加权样本词向量。根据本专利技术优选的,所述分类模块包括:分类训练单元和类别判别单元;所述分类训练单元用于:将所述加权样本词向量作为输入,以所述训练样本问题集模块中的所述训练样本问题的类别标注作为目标类别,结合Softmax回归和梯度下降算法进行有监督的分类训练,并不断更新所述训练样本问题分类器的内参,直至收敛;所述类别判别单元用于:将所述分类训练单元得到的所述训练样本问题的类别判别结果与所述训练样本问题集模块中的所述训练样本问题的类别标注作比较,将比较结果发送到所述评分模块。上述分类器系统的工作方法,具体步骤包括:(1)收集训练样本问题本文档来自技高网...

【技术保护点】
一种基于评分机制的反馈型问题类型分类器系统,其特征在于,包括:训练样本问题集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,所述训练样本问题集模块、所述分词模块、所述评分模块、所述词向量模块、所述分类模块、所述类别比较模块依次连接,所述分词模块、所述词库模块、所述词向量模块依次连接,所述分词模块连接所述词向量模块,所述训练样本问题集模块连接所述类别比较模块,所述类别比较模块连接所述评分模块;所述训练样本问题集模块用于:对每个训练样本问题人工划分类别,得到训练样本问题集;并人工标注得到所述训练样本问题集中的每个训练样本问题的类别标注;所述分词模块用于:对训练样本问题集中的训练样本问题进行分词,获得带词性标注的词组集,并将带词性标注的词组集分别发送给所述评分模块及所述词向量模块;所述词库模块用于:存储所述分词模块中全部训练样本问题的无重复的分词词组及相应词性,并发送到所述词向量模块;所述评分模块用于:对带词性标注的词组集进行句法分析,获得词组间的依赖关系,生成词图,得到词组的评分权重;所述词向量模块用于:接收词库模块中分词词组及相应词性,与所述词向量模块当前处理的带词性标注的词组集对比,生成当前处理的带词性标注的词组集对应的词向量,并将得到的词向量发送至所述分类模块;所述分类模块用于:对词向量进行迭代、训练,收敛到最优类别判别结果;所述类别比较模块用于:将最优类别判别结果与所述训练样本问题集中相应训练样本问题的类别标注相比较,其结果并反馈到所述评分模块。...

【技术特征摘要】
1.一种基于评分机制的反馈型问题类型分类器系统,其特征在于,包括:训练样本问题
集模块、分词模块、评分模块、词向量模块、分类模块、词库模块及类别比较模块,所述训
练样本问题集模块、所述分词模块、所述评分模块、所述词向量模块、所述分类模块、所述
类别比较模块依次连接,所述分词模块、所述词库模块、所述词向量模块依次连接,所述分
词模块连接所述词向量模块,所述训练样本问题集模块连接所述类别比较模块,所述类别比
较模块连接所述评分模块;
所述训练样本问题集模块用于:对每个训练样本问题人工划分类别,得到训练样本问题
集;并人工标注得到所述训练样本问题集中的每个训练样本问题的类别标注;所述分词模块
用于:对训练样本问题集中的训练样本问题进行分词,获得带词性标注的词组集,并将带词
性标注的词组集分别发送给所述评分模块及所述词向量模块;所述词库模块用于:存储所述
分词模块中全部训练样本问题的无重复的分词词组及相应词性,并发送到所述词向量模块;
所述评分模块用于:对带词性标注的词组集进行句法分析,获得词组间的依赖关系,生成词
图,得到词组的评分权重;所述词向量模块用于:接收词库模块中分词词组及相应词性,与
所述词向量模块当前处理的带词性标注的词组集对比,生成当前处理的带词性标注的词组集
对应的词向量,并将得到的词向量发送至所述分类模块;所述分类模块用于:对词向量进行
迭代、训练,收敛到最优类别判别结果;所述类别比较模块用于:将最优类别判别结果与所
述训练样本问题集中相应训练样本问题的类别标注相比较,其结果并反馈到所述评分模块。
2.根据权利要求1所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,
所述分词模块包括依次连接的分词单元、词性标注单元、词性纠正单元、过滤停止词单元、
命名实体识别单元;所述分词单元用于:根据训练样本问题的具体语境含义拆分成一系列词
组,所述训练样本问题是指所述训练样本问题集中的单个训练样本问题;所述词性标注单元
用于:为每个词组标注一个正确的词性;所述词性纠正单元用于:结合训练样本问题的具体
语境,对多词性词组分析词组成分及各词组间的依赖关系,最终确定该词组词性;所述过滤
停止词单元用于:过滤无具体含义的词或词组;所述命名实体识别单元用于:识别训练样本
问题中具有特定意义的实体,依据特殊名词与对应的词性表,为其赋予相应的词性标注。
3.根据权利要求2所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,
所述评分模块包括依次连接的句法分析单元、词图单元以及加权评分单元;所述句法分析单
元用于:根据得到的带词性标注的词组集,分析词组间句法与语义上的依赖关系;所述词图

\t单元用于:判断组间是否存在的依赖关系,若两词组间存在依赖关系,则这两词组间用无向
边表示,否则,不作任何处理;以此类推,生成训练样本问题的词图;为所述加权评分单元的
词组评分提供支持;所述加权评分单元用于:根据所述词图单元生成的训练样本问题的词图,
得到:各词组间的依赖关系,根据某一词组与其他词组依赖关系的强弱,给该词组赋值相应
大小的评分权重,依序进行,得到各词组的评分权重;所得到的各词组的评分权重发送到所
述词向量模块,与所述词向量模块生成的所述词向量相加权。
4.根据权利要求3所述的一种基于评分机制的反馈型问题类型分类器系统,其特征在于,
所述词向量模块包括:依次连接的词库模板单元及样本词向量单元;所述词库模板单元用于:
根据特殊名词与对应的词性表,将由所述词库模块中得到的全部训练样本问题的无重复的分
词词组中的特殊名词用相应的词性转换,从而得到包含词性标注的词库模板,用特殊名词的
词性来代替相应的特殊名词;所述样本词向量单元用于:将所述训练样本问题中的分词词组
集赋予所述加权评分单元对应的评分权重,将所述训练样本问题中的分词词组集中含有所述
命名实体识别单元中识别的特殊...

【专利技术属性】
技术研发人员:许宏吉党娟刘琚季名扬许征征房海腾
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1