本发明专利技术公开了一种英语作文自动评分系统,包括由一组英语作文集合而成的训练集、文本特征项、回归方程和带有输入和输出装置的电脑;训练集通过输入装置贮存在电脑中;文本特征项是通过对训练集中的作文进行文本分析而得到的信息,并将此信息作为自变量;回归方程是将训练集中的作文人评得分作为因变量与自变量进行多元回归分析并通过统计模型而建立的运行方式;对输入电脑中的待评分作文进行文本分析,将得到的文本特征项作为自变量,经过回归方程运算后得到评分结果,并通过电脑显示。本发明专利技术可实现对中国学生英语作文的大规模机器评分,资源消耗低、评分信度可靠。它广泛适用于各种大规模英语作文考试的评分中,具有极大的实用价值。
【技术实现步骤摘要】
本专利技术涉及一种对试卷进行自动评分的系统,具体地说是一种英语作文自动评分系统。
技术介绍
目前,国内还没有对英语作文进行自动评分的系统,国际上针对中国学生英语作文评分的技术也未见过任何报导。国际上对英语作文自动评分系统的研究主要有三种软件,都是利用人工评分培训机器评分模型,通过提取作文中的众多文本特征项,利用统计学的回归方法计算作文得分。这三种软件分别是PEG (由University of Duke开发),IEA (由 University of Colorado 开发)和 E-rater (由 Educational TestingService 开发)。然而这三种软件并非针对中国学生的英语作文自动评分而设计,运行的总体原理基本相同,但提取的文本特征项各不相同并对外保密。从零星出版公开的研究报告来看,PEG和IEA似乎主要为评阅以英语为母语的学生的作文而设计,E-rater主要为评阅GMAT考试中的学生作文而设计。各软件分别提取哪些具体的文本特征项作为评分模型的变量,无从得知。对英语写作质量的评价,一般应从语言、内容和篇章结构三个方面入手,而对其语言质量的评价往往从流利度(fluency)、准确性(accuracy)和复杂性(complexity)三个方面入手,其中的复杂性又分别从词和句子两个方面加以观察。国外现有的作文评分系统因为没有遵循这样的第二语言写作评判原则,因而对中国学生英语作文的评分针对性不强,方法不力,要么只能适应对以英语为母语的学生的作文的评分,要么只能适应于对某种考试中作文的自动评分。因此,上述三种英语作文自动评分系统都存在以下缺点I、中国学生的英语作文有其自身的特点,以上三种系统用于中国学生的自动评分针对性不强,不能客观地反映作文水平的高低。2、这三种软件不能从全方位分析学生英语作文的特点。PEG只分析作文中最基本的文本特征,如文本长度,平均词长等,其他变量却不加分析;IEA利用信息检索中的Latent Semantic Analysis技术,主要分析作文的内容;而E-rater利用自然语言处理技术,分析作文的句法特点、切题度和修辞结构,其它具体变量也不加分析。
技术实现思路
本专利技术的目的正是要克服上述自动评分系统的缺点,提供一种适合中国学生的英语作文自动评分系统,该系统综合作文中诸方面的特点并以此为评判依据,对中国学生的英语作文进行自动评分,可实现英语作文的大规模评分。本专利技术的目的是通过以下技术方案来实现的一种英语作文自动评分系统,其特征是它包括由一组英语作文集合而成的训练集、文本特征项、回归方程和带有输入和输出装置的电脑;所述训练集通过输入装置贮存在电脑中;文本特征项是通过对训练集中的作文进行文本分析而得到的信息,并将此信息作为自变量;回归方程是将训练集中的作文人评得分作为因变量与自变量进行多元回归分析并通过统计模型而建立的运行方式;对输入电脑中的待评分作文进行文本分析,将得到的文本特征项作为自变量,经过回归方程运算后得到评分结果,并通过电脑的输出装置显示。本专利技术中,所述文本特征项包括能够体现作文特征的语言质量、内容质量和篇章结构质量。所述语言质量包括流利性、词汇复杂性、句法复杂性和准确性;内容质量包括内容的相关性和内容的连贯性;篇章结构质量包括话语结构和段落安排。本专利技术中所述自变量包括以下14项反映流利性的类符数;反映词汇复杂性的平均词长、词长标准偏差和名词化词汇比率;反映句法复杂性的平均句长和动名词数目;反映准确性的重现词丛数目、介词频率误差、定冠词频率误差、名词代词比;反映内容的相关性的内容相似度;反映内容连贯性的程序词汇数目;反映话语结构的语篇连接语数目;反映段落安排的段落数误差。本专利技术中各自变量定义如下 I)类符数指文本中所包含的类符(word types)数目。2)平均词长指文本中所有词汇的平均长度(以单词中所包含的字母数计算)。3)词长标准偏差指文本中所包含的词汇的长度(以单词中所包含的字母数计算)的标准偏差。4)名词化词汇比率指文本中名词化词汇(_ion,-ment等)与总词数之比率。5)平均句长指文本中所有句子的平均长度(按句子中的单词数目计算)。6)动名词数目指文本中以_ing结尾的词数。7)重现词丛数目指训练集中的最佳集(抽样样本中得分最高的1/4)中出现3次以上的3-4词的词丛(word clusters)在文本中出现的次数。8)介词频率误差指介词的比率(介词数与总词数之比)减去13. 21%后所得数值的绝对值。9)定冠词频率误差指定冠词的比率(定冠词数与总词数之比)减去6. 5%后所得数值的绝对值。10)名词代词比指文本中名词总数与人称代词总数之比率。11)内容相似度指对词语-文档矩阵(term-document matrix)按照Okapi词语权重方案对词语进行权重后再经过奇异值分解(Singular ValueDecomposition),重建矩阵后再按照点积数量积(dot product)求得的各文本与训练集中的最佳集在语义上的相似度(similarity)。Okapi词语权重方案为词语权重(term weight) =--* log(^ + °-)。0.5 + i.5*-^- + r/df + 05avg _dl12)程序词汇项数目指文本中所包含的程序词汇(procedural vocabulary)项的数目。程序词汇表由专利申请人自编。13)语篇连接语数目指文本中所包含的语篇连接语(discourse conjuncts)的数目。语篇连接语列表由专利申请人自编。14)段落数误差指训练集中的最佳集作文的平均段落数与文本实际段落之差的绝对值。本专利技术中自动评分过程主要依赖评分模型的建立,而评分模型的核心部分是语言质量、内容质量、篇章结构质量这三大模块及各模块中的自变量。首先,从大规模考试中收集批量的学生作文作为研究素材,并组织多个资深评分员对这批作文进行人工评分。评分后的作文作为训练集,用于创建评分模型。在模型创建阶段,利用自然语言处理技术、语料库赋码及统计技术、信息检索技术对学生作文进行文本分析,提取大量的文本特征项,然后进行相关性分析,以确定模型中的自变量;同时以人工评分作为因变量,进行多元回归分析,建立回归模型,最终得到回归方程。这些自变量是一些能够体现作文的语言、内容和篇章结构的一些文本特征项。目前,基于已经进行的分析结果可知本专利技术的核心部分包括三大评分模块和已经确定的14个自变量,确定的三大评分模块为语言质量、内容质量和篇章结构质量;自变量包括以下14项类符数、平均词长、词长标准偏差、名词化词汇比率、平均句长、动名词数目、重现词丛数目、介词频率误差、定冠词频率误差、名词代词比、内容相似度、程序词汇数目、语篇连接语数 目、段落数误差。在自动评分阶段,先对待评分作文进行文本分析,提取变量,然后将变量的数值代入回归方程之中,即可得到机器评分。本专利技术一方面对训练集中的作文进行文本分析,提取大量的文本特征项,以确定模型中的自变量,另一方面以人工评分作为因变量,进行多元回归分析,得到回归方程,然后通过对待评分作文进行文本分析,提取变量,并将变量的数值代入回归方程之中,最终实现机器评分。本专利技术与现有的人工评分方法相比,资源消耗低、评分信度本文档来自技高网...
【技术保护点】
一种英语作文自动评分系统,其特征是:它包括由一组英语作文集合而成的训练集、文本特征项、回归方程和带有输入和输出装置的电脑;所述训练集通过输入装置贮存在电脑中;文本特征项是通过对训练集中的作文进行文本分析而得到的信息,并将此信息作为自变量;回归方程是将训练集中的作文人评得分作为因变量与自变量进行多元回归分析并通过统计模型而建立的运行方式;对输入电脑中的待评分作文进行文本分析,将得到的文本特征项作为自变量,经过回归方程运算后得到评分结果,并通过电脑的输出装置显示。
【技术特征摘要】
1.一种英语作文自动评分系统,其特征是它包括由一组英语作文集合而成的训练集、文本特征项、回归方程和带有输入和输出装置的电脑;所述训练集通过输入装置贮存在电脑中;文本特征项是通过对训练集中的作文进行文本分析而得到的信息,并将此信息作为自变量;回归方程是将训练集中的作文人评得分作为因变量与自变量进行多元回归分析并通过统计模型而建立的运行方式;对输入电脑中的待评分作文进行文本分析,将得到的文本特征项作为自变量,经过回归方程运算后得到评分结果,并通过电脑的输出装置显示。2.根据权利要求I所述的英语作文自动评分系统,其特征是通过对训练集中的作文进行文本分析而得到的自变量包括能够体现作文特征...
【专利技术属性】
技术研发人员:李德霞,
申请(专利权)人:李德霞,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。