一种基于短语结构树的相似题目识别方法和系统技术方案

技术编号:26259767 阅读:31 留言:0更新日期:2020-11-06 17:54
本发明专利技术提出一种基于短语结构树的相似题目识别方法和系统,包括:S1.针对输入题目进行文本预处理;S2.针对题目信息构建短语结构树;S3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结构信息及叶子节点内容信息,判定题目的相似情况。本发明专利技术主要针对中小学学科相似题目的比较识别问题,对待比较题目构建短语结构树然后通过对短语结构树的比较来评估题目的相似情况,从而降低题库的冗余。

【技术实现步骤摘要】
一种基于短语结构树的相似题目识别方法和系统
本专利技术涉及教育
,尤其涉及一种基于短语结构树的相似题目识别方法和系统。
技术介绍
题目数据是教育资源中重要的组成部分,在学习和教学过程中,学生日常使用的练习题目及用于测试的考试题目均属于题目数据。随着计算机和互联网技术的发展,中小学教育中的题目数据基本实现了电子化存储。题目数据在学习过程中不仅可以帮助学生加深对知识的学习与理解,还可以帮助老师及时掌握学生对知识的掌握情况,了解学生的学习进度,帮助学生查缺补漏,提高学习效率。对于中小学多学科题库的建设,一方面便于对中小学多学科题目数据的更新与管理,另一方面可以降低老师教学的工作强度。随着题库中题目数据的不断更新与增加,题库中会出现两个或多个题目相同或相似的情况。相同或相似题目的出现一方面使得题库变得冗余庞大,需要消耗更多的存储计算资源;另一方面会影响题库数据的检索使用效率。因此对题库中的题目进行筛查并去除相同或相似题目是十分必要的。在相似题目识别任务中,评估计算两个题目的相似度是其中最重要的一环。当前的题目相似度计算方式主要是将待比较的题目看作两个连续的字符串来处理。一种方式是通过字符串的距离度量来评估题目的相似度,如将字符表示为向量后,计算两个向量之间的余弦夹角或欧式距离等;另一种方式是对文本降维,如给字符串生成一个SimHash值,即指纹(fingureprint),通过SimHash的值来评估两个字符串的相似情况。值得注意的是,以上的方法均把题目作为一个字符串整体来处理,在实际中,一道完整的题目,往往包含不同的表达形式,如有的为普通字符表示,有的为公式表示。如果将题目整体按照字符串简单处理,则无法准确评估题目的相似情况。而且有的题目尽管字符相同,但是不同的语句结构导致表示的题目信息有所差别,实际为不同的题目。比如“-3的倒数的相反数”和“-3的相反数的倒数”。因此需要一种能够更精确地判断题目是否相同的方法。短语结构树是一种可以很好的对语句中的关键位置及关键信息进行表示的结构。
技术实现思路
针对以上问题,本专利技术提出一种基于短语结构树的相似题目识别方法和系统,将题目数据进行文本预处理并解析题目涉及到的知识点信息及公式信息,然后针对题目信息构建短语结构树,通过对构建的短语结构树先进行剪枝处理,然后进行层次遍历,比较树的结构信息及叶节点内容信息进而实现两个题目之间相似度的比较。根据本专利技术的一个方面,提出一种基于短语结构树的相似题目识别方法,包括以下步骤:S1.针对输入题目进行文本预处理;S2.针对题目信息构建短语结构树;S3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结构及叶子节点内容,判定题目的相似性。2、根据权利要求1所述的方法,其特征在于,在所述步骤S1中,对输入题目进行文本预处理,包括:S11.统一编码处理、分词、去除停用词、去除无用及非法字符,从而获得词序列;S12.根据题目中的关键字解析识别题目涉及的知识点信息;S13.根据正则表达式解析题目中的公式表达式信息。3、根据权利要求2所述的方法,其特征在于,所述步骤S2中,针对题目信息构建短语结构树的步骤包括:S21.对词序列进行词法分析;S22.对词序列进行语法分析;S23.根据词法分析和语法分析的结果构建短语结构树。4、根据权利要求1所述的方法,其特征在于,所述步骤S3中,剪枝的步骤包括:S31.对插入语进行剪枝处理;S32.对无实际意义的词进行剪枝处理。5、根据权利要求4所述的方法,其特征在于,所述步骤S3中,判定题目的相似性的步骤包括:S33.比较题目短语结构树的结构,若短语结构树的树结构信息不相同,则判定题目不相同,否则进入步骤S34;S34.比较短语结构树的内容信息是否相同,若不相同则判定题目不相同,否则判定题目相同。6、根据权利要求5所述的方法,其特征在于,所述步骤S34中,比较短语结构树的内容信息的步骤包括:比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;为词性设置不同的权重值,计算两个短语的相似度,如果相似度大于设定的阈值,则判定题目相同,否则判定题目不相同。7、根据权利要求6所述的方法,其特征在于,所述相似度的计算公式为:其中wi为短语结构树叶子节点中第i个分词对应词性的权重,ci为两个短语结构树第i个分词的比较结果,若第i个分词相同ci=1,否则ci=0。8、一种基于短语结构树的相似题目识别系统,其特征在于,所述系统包括题目文本预处理模块、构建短语结构树模块及题目判定模块,其中:题目文本预处理模块,用于读取待比较题目信息及题库题目信息,对题目文本进行相应的文本预处理,解析题目中的知识点信息及公式表达式信息,最后将题目信息传送给构建短语结构树模块;构建短语结构树模块,根据题目文本预处理模块获取的题目信息,对题目进行词法分析及语法分析,结合题目中的知识点信息与公式表达式信息构建短语结构树,将其传送给题目判定模块;题目判定模块,根据待比较题目的短语结构树信息,对短语结构树做剪枝操作,然后层次遍历短语结构树,根据短语结构树的树结构信息及题目内容信息判定题目的相似性并对题目进行相应的处理;9、根据权利要求8所述的系统,其特征在于,在所述题目文本预处理模块中,对题目文本进行预处理的方法包括;统一编码处理、分词、去除停用词、去除无用及非法字符,获得词序列;根据题目中的关键字解析识别题目中涉及的知识点信息;根据正则表达式解析题目中的公式表达式信息。10、根据权利要求8所述的系统,其特征在于,所述题目判定模块中,根据短语结构树的树结构信息及题目内容信息判定题目的相似性的方法包括:比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;为词性设置不同的权重值,计算短语间的相似度,如果相似度大于设定的阈值,则判定题目相同,否则判定题目不相同。本专利技术的有益效果为:(1)针对相似题目比较过程中的题目表征,利用短语结构树对题目进行结构化解析,从而实现对题目描述细颗粒度的结构化表征。(2)针对相似题目比较,本专利技术在短语结构树表征的基础上,通过对短语结构树进行剪枝,提炼短语结构树的主要部分,进行短语结构树的比较,在题目结构层面对题目进行比较。(3)针对相似题目的比较,本专利技术在短语结构树比较的基础上,通过比较题目包含的知识点信息、公式信息以及具体文本信息的细颗粒度比较,提高了相似性判断的准确率。附图说明图1为根据本专利技术一个实施例的一种基于短语结构树的相似题目识别方法的流程示意图;图2为根据本专利技术一个实施例的题目文本预处理方法的流程示意图;图3本文档来自技高网
...

【技术保护点】
1.一种基于短语结构树的相似题目识别方法,其特征在于,包括以下步骤:/nS1.针对输入题目进行文本预处理;/nS2.针对题目信息构建短语结构树;/nS3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结构及叶子节点内容,判定题目的相似性。/n

【技术特征摘要】
1.一种基于短语结构树的相似题目识别方法,其特征在于,包括以下步骤:
S1.针对输入题目进行文本预处理;
S2.针对题目信息构建短语结构树;
S3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结构及叶子节点内容,判定题目的相似性。


2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,对输入题目进行文本预处理,包括:
S11.统一编码处理、分词、去除停用词、去除无用及非法字符,从而获得词序列;
S12.根据题目中的关键字解析识别题目涉及的知识点信息;
S13.根据正则表达式解析题目中的公式表达式信息。


3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,针对题目信息构建短语结构树的步骤包括:
S21.对词序列进行词法分析;
S22.对词序列进行语法分析;
S23.根据词法分析和语法分析的结果构建短语结构树。


4.根据权利要求1所述的方法,其特征在于,所述步骤S3中,剪枝的步骤包括:
S31.对插入语进行剪枝处理;
S32.对无实际意义的词进行剪枝处理。


5.根据权利要求4所述的方法,其特征在于,所述步骤S3中,判定题目的相似性的步骤包括:
S33.比较题目短语结构树的结构,若短语结构树的树结构信息不相同,则判定题目不相同,否则进入步骤S34;
S34.比较短语结构树的内容信息是否相同,若不相同则判定题目不相同,否则判定题目相同。


6.根据权利要求5所述的方法,其特征在于,所述步骤S34中,比较短语结构树的内容信息的步骤包括:
比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;
比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;
为词性类别设置不同的权重值,计算两个短语的相似度,如果相似度大于设定的阈值,则判定...

【专利技术属性】
技术研发人员:陈鹏鹤卢宇余胜泉刘杰飞
申请(专利权)人:北京师范大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1