本发明专利技术提供一种面向理解的互动答疑系统,其原始语料采集模块能够从多种途径采集某技术领域内的文本,保证有充足的领域内相关原始语料供后续处理;语料自动构建模块能够对采集到的原始语料进行预处理,提取多个知识点并组成知识树,然后基于知识树生成该技术领域的知识图谱,进而基于知识图谱生成可以直接用于训练对话模型的训练用语料,实现训练用语料的自动构建,摆脱了人工标注语料的需求,解决了训练用语料匮乏的问题,同时节省大量人力;互动答疑模块能够提供与用户进行交互的对话模型,采用引导式的对话问答模式对用户输入的原始问题进行引导及回答,相较于传统问答模式,还能引导用户进行思考及关联学习,保证了教学与答疑的有效性。答疑的有效性。答疑的有效性。
【技术实现步骤摘要】
面向理解的互动答疑系统
[0001]本专利技术属于自然语言处理
,具体涉及一种面向理解的互动答疑系统。
技术介绍
[0002]在典型的教学场景中,答疑以知识理解为目标,根据学生问题、学生状态,有针对性的采用启发式回答、直接回答、关联回答、举例回答等答疑方式,引领学生能够在问答中重新学习、掌握遗漏,实现“找出问者不理解的地方,以及使其理解的答复路径”的目的。
[0003]在线教育蓬勃发展背景下,面向无人环境的知识答疑对提升教学效果具有重要意义。然而,当前的教育问答系统在互动模式及语料构造模型方面存在明显的局限。
[0004]首先,传统的一问一答式的答疑模型不能满足教育场景下的答疑需求。目前教育领域中的答疑系统,往往以一问一答的交互方式进行,在学生提出问题后,系统直接给出问题的答案,这种简单的交互方式并不能真正解决学生的疑问,达不到答疑的目的,对于学生理解知识的帮助极为局限,不是真正的答疑系统,因此迫切需要面向知识点理解、模拟师生交互模式的答疑系统。
[0005]其次,缺少人工标注语料难以训练出优质的答疑系统。目前,教育领域中的答疑系统,通常采用基于深度学习的互动模型,这些模型在模型训练时需要大量经过标注的语料,从原始的文本中构建出可用于实际训练的语料往往需要大量人力财力的投入,这种做法导致目前可用的高质量语料只集中于少数特定的领域中,而且这些语料往往并不对公众开放,以至于在开发答疑模型时常常面临严重的语料缺乏问题,要克服该问题则往往需要付出大量的额外成本。
技术实现思路
[0006]本专利技术是为解决上述问题而进行的,目的之一在于提供一种面向知识点理解、模拟师生交互模式的互动答疑系统,从而满足学生的答疑需要,目的之二在于提供一种语料构建模型,从而提供充足的语料,提升答疑模型训练的有效性,本专利技术采用了如下技术方案:
[0007]本专利技术提供了一种面向理解的互动答疑系统,用于对用户输入的问题进行引导以及回答,其特征在于,包括:原始语料采集模块,用于通过多种渠道采集
内的文本作为原始语料;语料自动构建模块,基于所述原始语料生成训练用语料;以及互动答疑模块,用于提供与所述用户交互的对话模型,该对话模型采用引导式的对话问答模式,其中,所述语料自动构建模块包括:预处理单元,对所述原始语料进行预处理,得到知识树,该知识树包含有呈树状结构的多个知识点;知识图谱构建单元,基于所述知识树生成所述
的知识图谱;以及训练语料生成单元,基于所述知识图谱生成所述训练用语料,该训练用语料可直接应用于所述对话模型的训练。
[0008]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述预处理单元对所述文本进行以下操作:提取所述文本的章节结构;基于所述章节结构搭建
所述树状结构;按照所述树状结构将所述文本分割为多个知识实体并进行归纳存储;以及在所述归纳存储的基础上对所述文本进行知识再抽取,将所述文本转换为结构化的所述知识树。
[0009]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述知识点包括从所述文本的章节提取出的章节知识点以及从所述文本的正文提取出的正文知识点,所述知识图谱构建单元包括:多个一级属性分类器,用于对多个所述章节知识点以及对应的多个所述正文知识点进行属性分类;多个二级属性分类器,用于对多个所述正文知识点进行进一步分类;知识实体抽取器,用于根据所述知识点从所述文本中抽取对应的文本段作为对应的知识实体;以及多个知识关系提取器,用于提取多个所述知识点之间的相互关系。
[0010]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述一级属性分类器的数量为三个,分别用于进行属性分类,将所述知识点以及对应的所述知识实体分类为概念、过程、原理,所述二级属性分类器的数量为二十一个,分别用于将所述知识实体进行进一步属性分类,将分类为所述概念的所述知识实体进一步分类为定义、功能、分类、特点,将分类为所述过程的所述知识实体进一步分类为方法、策略,将分类为所述原理的所述知识实体进一步分类为知识原理。
[0011]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述一级属性分类器和所述二级属性分类器均为基于置信度及网格搜索的OVO
‑
SVM分类器,所述知识实体抽取器为HM
‑
SVM识别器。
[0012]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述一级属性分类器和所述二级属性分类器利用所述置信度来区分所述文本的一个句子中是否包含有所述知识点,并给出所述属性归类的可信程度,所述置信度的计算公式为:
[0013][0014][0015]式中,A、B为拟合的参数,f是样本输出,将训练集定义为(f
i
,h
i
),其中h
i
为目标概率。
[0016]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述知识关系提取器的数量为四个,分别用于将两个所述知识点之间的关系分类为父子关系、前驱关系、相似关系、事例关系,所述相似关系根据两个所述知识点之间的余弦相似度或jaccard相似度进行判断。
[0017]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述训练语料生成单元根据所述知识图谱中的所述知识点以及预定的问题生成模板生成相关的问题,并将所述问题和对应的所述知识点组合成所述训练用语料。
[0018]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,其中,所述互动答疑模块具有引导状态、解释状态以及回答状态,处于所述引导状态时,所述互动答疑模块根据所述用户的输入确定所述问题以及对应的所述知识点,记作目标知识点,处于所
述解释状态时,所述互动答疑模块使用与所述目标知识点为所述前驱关系的所述知识点、为所述相似关系的所述知识点或者为事例关系的所述知识点对所述问题进行解释,处于所述回答状态时,所述互动答疑模块使用所述目标知识点进行回答。
[0019]本专利技术提供的面向理解的互动答疑系统,还可以具有这样的技术特征,还包括:用户管理模块,用于为每个所述用户维护该用户的知识网络,在所述引导以及所述回答过程中更新不同的所述知识点的掌握情况,计算所述知识点的掌握情况的公式为:
[0020][0021]式中,S
′
为所述知识点之前的掌握分数,α、β为系数,pre、sim、child分别代表与所述知识点相关联的前驱知识点、相似知识点和子知识点,N为对应的所述知识点的数量,D为不同的所述知识点的权重系数。
[0022]专利技术作用与效果
[0023]根据本专利技术的面向理解的互动答疑系统,由于具有原始语料采集模块,因此能够从互联网、纸质教材等多种渠道采集某一
内的文本内容作为原始语料,保证有充足的领域内相关原始语料供后续处理,提供了整个系统运行的基础;由于具有语料自动构建立模块,因此能够对采集到的原本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种面向理解的互动答疑系统,用于对用户输入的原始问题进行引导以及回答,其特征在于,包括:原始语料采集模块,用于从多种途径采集技术领域内的文本作为原始语料,所述多种途径至少包括互联网;语料自动构建模块,基于所述原始语料生成训练用语料;以及互动答疑模块,用于提供与所述用户交互的对话模型,该对话模型采用引导式的对话问答模式,其中,所述语料自动构建模块包括:预处理单元,对所述原始语料进行预处理,得到知识树,该知识树包含有呈树状结构的多个知识点;知识图谱构建单元,基于所述知识树生成所述技术领域的知识图谱;以及训练语料生成单元,基于所述知识图谱生成所述训练用语料,该训练用语料可直接应用于所述对话模型的训练。2.根据权利要求1所述的面向理解的互动答疑系统,其特征在于:其中,所述预处理单元对所述文本进行以下操作:提取所述文本的章节结构;基于所述章节结构搭建所述树状结构;按照所述树状结构将所述文本分割为多个知识实体并进行归纳存储;以及在所述归纳存储的基础上对所述文本进行知识再抽取,将所述文本转换为结构化的所述知识树。3.根据权利要求2所述的面向理解的互动答疑系统,其特征在于:其中,所述知识点包括从所述文本的章节提取出的章节知识点以及从所述文本的正文提取出的正文知识点,所述知识图谱构建单元包括:多个一级属性分类器,用于对多个所述章节知识点以及对应的多个所述正文知识点进行属性分类;多个二级属性分类器,用于对多个所述正文知识点进行进一步分类;知识实体抽取器,用于根据所述知识点从所述文本中抽取对应的文本段作为对应的知识实体;以及多个知识关系提取器,用于提取多个所述知识点之间的相互关系。4.根据权利要求3所述的面向理解的互动答疑系统,其特征在于:其中,所述一级属性分类器的数量为三个,分别用于进行属性分类,将所述知识点以及对应的所述知识实体分类为概念、过程、原理,所述二级属性分类器的数量为二十一个,分别用于将所述知识实体进行进一步属性分类,将分类为所述概念的所述知识实体进一步分类为定义、功能、分类、特点,将分类为所述过程的所述知识实体进一步分类为方法、策略,将分类为所述原理的所述知识实体进一步分类为知识原理。5.根据权利要求3所述的面向理解的互动答疑系统,其特征在于:其中,所述一级属性分类器和所述二级...
【专利技术属性】
技术研发人员:朱潇,李银胜,
申请(专利权)人:珠海复旦创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。