本发明专利技术公开了一种面向分级读物的多尺度难度向量分类方法,该分类方法首先构造词语搭配特征、上下文特征、主题特征等丰富了特征表示,结合之前研究中效果最突出的特征,获得一个轻量、全面的句子难度向量,再输入到分类器如梯度提升树(GBDT)中,在教育分级读物语料、通用语料上达到很好的效果。该发明专利技术简化了特征表示,只需要21个向量就能体现句子难度,引入了多尺度特征丰富了难度特征表示,增强了模型泛化性;结合新使用的上下文信息构建了对句子级别和文章级别都适用的难度向量表示系统,在句子级别和文章级别的两个数据集都获得了较好的效果;分类器使用梯度提升树,训练速度快,可以获得特征重要性排序。
Classification method of multi-scale difficulty vector for graded reading
【技术实现步骤摘要】
面向分级读物的多尺度难度向量分类方法
本专利技术涉及自然语言处理中的明确性分析
,具体涉及一种面向分级读物的多尺度难度向量分类方法。
技术介绍
难度向量分类的任务是,给定一篇文本,通过对文本进行分析,给出该文本的难度值或判断该文本适合哪一水平的读者。应用在教育领域,可以为分级语料和课本素材的选取提供参考依据,对句子的理解难度、复杂性有定量的度量。在通用文本领域如新闻文本,也可对新闻阅读难度、专业性做分析。本难度向量可对文本的理解难度、复杂性做一个较为准确的度量,为句子简化和提炼提供重要的依据,同时也为教育领域分级语料的挑选提供参考。在如今自然语言处理的不断发展下,句子难度分析也有着重要的实践和应用价值。在难度向量的特征提取方面,国内外使用的模型任务可分为基于可读性公式、基于分类、基于排序的方法。可读性公式综合特定文本因素输出文本难度分数,目前主要作为机器学习分类的特征之一。基于分类与排序的方法所使用的特征,主要可分为词汇特征与句法特征。在文献“AnnieLouisandAniNenkova,“Automaticidentificationofgeneralandspecificsentencesbyleveragingdiscourseannotations.”,InProceedingsofInternationalJointConferenceonNaturalLanguageProcessing(IJCNLP).pp.605–613,2011”中,Louis等人首先提出了句子明确性分类问题,考虑了句子长度,词语极性,词性等基础特征应用在WSJ新闻语料库分类上。在文献“JorgeAlbertoWagnerFilho,RodrigoWilkensandAlineVillavicencio.“AutomaticConstructionofLargeReadabilityCorpora”,inProceedingsoftheWorkshoponComputationalLinguisticsforLinguisticComplexity(CL4LC).pp.164–173,2016”中,JunyiJessyLi等人在原先基础上通过引入词聚类,TF-IDF数值为出现次数较少的单词提供了更多信息,提升了泛化性,并使用半监督方法扩充了语料,开源了speciteller项目。Jorge等人扩充了难度特征个数达到89个,包括词语音节数、句法树等其他语言学特征。这些词语特征反映了词语的复杂程度,句法特征反映了句法使用的复杂程度。在构造完句子的特征表示后,使用机器学习分类器如决策树、神经网络等进行分类。在已有的中文专利方面“范舟,白彬,袁敦龙,钱登胜,余夏婷,陈遥.一种评估文本难度的方法[P].中国专利技术专利,CN105068993A,2015-11-18”中,范舟等人结合统计学原理和中文汉字特点进行了文本难度评估,但其所使用的可读性公式只包含统计特征的线性和对数值的组合,缺乏对文本语义的挖掘,而本专利的研究过程中,专利技术人在统计语言学特征的基础上融入了句子结构、语义、句义等的多尺度语义的难度衡量信息,解决了教育分级读物和新闻文本分类的需求。目前该领域存在的问题是,为了获得丰富的句子特征,构造特征、模型学习需要花费较多的时间,使用的特征大多局限于词汇与句法级别,对句子信息的提取不够全面。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种面向分级读物的多尺度难度向量分类方法,该分类方法首先构造词语搭配特征、上下文特征、主题特征等丰富了特征表示,结合之前研究中效果最突出的特征,获得一个轻量、全面的句子难度向量,再输入到分类器如梯度提升树(GBDT)中,可以在教育分级读物语料、通用语料上达到很好的效果。与现有技术相比,本专利技术侧重于提取轻量、全面的句子难度向量,使用机器学习方法拟合已有的分类数据,从而具有更好的泛化性和准确性,且对于不同语言均适用。本专利技术的目的可以通过采取如下技术方案达到:一种面向分级读物的多尺度难度向量分类方法,该方法包括以下步骤:S1、预先对webhtml文本格式的原始文本数据进行清洗,再进行分句,分类每一个样本;S2、将文本切分为句子s=(s1,s2,…sT)(T为分句后的句子数量),每个句子切分为词w=(w1,w2,…wS)(S为每个句子的词语数量);S3、将文本句子输入到特征提取器m1中,特征提取器m1提取先前研究提出的特征中15个效果上最为显著的基础词法特征和句法特征(词频(出现频次)、音节数(发音时的音节数)、单词字符个数、词极性(情感词典分数)、IDF值(逆文档概率)、词向量(Word2vec向量)、词聚类(词向量的聚类标签)、单词含义个数、句子长度、特殊符号个数(标点、数字等)、停用词个数、句子中特性词个数(名词、形容词、动词、连词)),将以上基础特征中的词法特征求和并用句子长度做归一化得到词法向量ew,与以上基础特征中的句法特征es拼接,得到每个句子的基础特征表示为特征向量,上标为向量维度;S4、将文本句子输入到特征提取器m2中,特征提取器m2提取本专利新提出来的6个特征:句子困惑度(度量一个概率分布或概率模型预测样本的好坏程度)、句子主题类型(通过主题模型隐含狄利克雷分布获得)、词语学会年龄(人学会该单词的平均年龄)、句法树宽度(依存句法分析树的宽度)、前后句子相似度(前后句词向量的余弦相似度)、前后句子使用词汇的重叠度,将以上的词法特征求和并用句子长度做归一化得到词法向量ew,与句法特征es拼接,得到每个句子的多尺度特征表示S5、将句子的基础特征表示和多尺度特征表示拼接起来,获得句子最终的特征表示S6、将特征表示输入梯度提升树(GBDT)(梯度提升树是用于回归和分类问题的机器学习技术,其以弱预测模型(通常是决策树)的集合的形式产生预测模型)中,根据模型输出结果和训练数据真实结果训练模型,利用训练好的模型在测试数据上得到最终结果的准确率accuracy值,并计算特征重要性排序。进一步地,所述的步骤S3中,将句子中每个词的词法特征求和并用句子长度做归一化得到词法向量ew的过程如下:遍历每一个单词,获取每一个单词的以下信息:词频(出现频次)、音节数(发音时的音节数)、单词字符个数、词极性(情感词典分数)、IDF值(逆文档概率)、词向量(Word2vec向量)、词聚类(词向量的聚类标签)、单词含义个数,将以上信息求和并用句子长度做归一化得到词法向量ew。进一步地,所述的步骤S3中,句法特征es的获取过程如下:遍历每一个句子,统计以下信息:句子长度、特殊符号个数(标点、数字等)、停用词个数、句子中特性词个数(名词、形容词、动词、连词),获得句法特征es。进一步地,所述的步骤S3中,部分特征(词频(出现频次)、单词字符个数、词极性(情感词典分数)、IDF值(逆文档概率)、词聚类(词向量的聚类标签)、特殊符号个数(标点、数字等)、停用词个数))使用工具speciteller获取,单词相关特征单本文档来自技高网...
【技术保护点】
1.一种面向分级读物的多尺度难度向量分类方法,其特征在于,所述的分类方法包括以下步骤:/nS1、预先对web html文本格式的原始文本数据进行清洗,再进行分句,分类每一个样本;/nS2、将文本切分为句子s=(s
【技术特征摘要】
1.一种面向分级读物的多尺度难度向量分类方法,其特征在于,所述的分类方法包括以下步骤:
S1、预先对webhtml文本格式的原始文本数据进行清洗,再进行分句,分类每一个样本;
S2、将文本切分为句子s=(s1,s2,…sT),T为分句后的句子数量,每个句子切分为词w=(w1,w2,…wS),S为每个句子的词语数量;
S3、将文本句子输入到特征提取器m1中,特征提取器m1提取15个效果最为显著的基础词法特征和句法特征,该词法特征包括用于表示出现频次的词频、音节数、单词字符个数、用于表示情感词典分数的词极性、用于表示逆文档概率的IDF值、用于表示Word2vec向量的词向量、用于表示词向量的聚类标签的词聚类、单词含义个数,将以上词法特征求和并用句子长度做归一化得到词法向量ew;该句法特征包括句子长度、特殊符号个数、停用词个数、句子中特性词个数,将以上句法特征拼接得到句法特征es,词法特征ew和句法特征es拼接得到每个句子的基础特征表示为特征向量,上标为向量维度;
S4、将文本句子输入到特征提取器m2中,特征提取器m2提取6个词法特征,包括:用于度量一个概率分布或概率模型预测样本的好坏程度的句子困惑度、通过主题模型隐含狄利克雷分布获得的句子主题类型、用于表示人学会该单词的平均年龄的词语学会年龄、用于体现句法结构的复杂程度的句法树宽度、用于表示前后句词向量的余弦相似度的前后句子相似度、前后句子使用词汇的重叠度,将以上的词法特征求和并用句子长度做归一化得到词法向量ew,与句法特征es拼接,得到每个句子的多尺度特征表示
S5、将句子的基础特征表示和多尺度特征表示拼接起来,获得句子最终的特征表示
S6、将特征表示输入梯度提升树模型中,其中梯度提升树模型是用于回归和分类问题的机器学习技术,其以弱预测模型的集合的形式产生预测模型,根据梯度提升树模型输出结果和训练数据真实结果训练梯度提升树模型,利用训练好的模型在测试数据上得到最终结果的准确率accuracy值,并计算特征重要性排序。
【专利技术属性】
技术研发人员:马千里,陈海斌,田帅,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。