面向分级读物的多尺度难度向量分类方法技术

技术编号：23191004 阅读：137 留言：0更新日期：2020-01-24 16:18

本发明专利技术公开了一种面向分级读物的多尺度难度向量分类方法，该分类方法首先构造词语搭配特征、上下文特征、主题特征等丰富了特征表示，结合之前研究中效果最突出的特征，获得一个轻量、全面的句子难度向量，再输入到分类器如梯度提升树(GBDT)中，在教育分级读物语料、通用语料上达到很好的效果。该发明专利技术简化了特征表示，只需要21个向量就能体现句子难度，引入了多尺度特征丰富了难度特征表示，增强了模型泛化性；结合新使用的上下文信息构建了对句子级别和文章级别都适用的难度向量表示系统，在句子级别和文章级别的两个数据集都获得了较好的效果；分类器使用梯度提升树，训练速度快，可以获得特征重要性排序。

Classification method of multi-scale difficulty vector for graded reading

全部详细技术资料下载

【技术实现步骤摘要】
面向分级读物的多尺度难度向量分类方法
本专利技术涉及自然语言处理中的明确性分析
，具体涉及一种面向分级读物的多尺度难度向量分类方法。
技术介绍
难度向量分类的任务是，给定一篇文本，通过对文本进行分析，给出该文本的难度值或判断该文本适合哪一水平的读者。应用在教育领域，可以为分级语料和课本素材的选取提供参考依据，对句子的理解难度、复杂性有定量的度量。在通用文本领域如新闻文本，也可对新闻阅读难度、专业性做分析。本难度向量可对文本的理解难度、复杂性做一个较为准确的度量,为句子简化和提炼提供重要的依据，同时也为教育领域分级语料的挑选提供参考。在如今自然语言处理的不断发展下，句子难度分析也有着重要的实践和应用价值。在难度向量的特征提取方面，国内外使用的模型任务可分为基于可读性公式、基于分类、基于排序的方法。可读性公式综合特定文本因素输出文本难度分数，目前主要作为机器学习分类的特征之一。基于分类与排序的方法所使用的特征，主要可分为词汇特征与句法特征。在文献“AnnieLouisandAniNenkova，“Automaticidentificationofgeneralandspecificsentencesbyleveragingdiscourseannotations.”，InProceedingsofInternationalJointConferenceonNaturalLanguageProcessing(IJCNLP).pp.605–613,2011”中，Louis等人首先提出了句子明确性分类问题，考虑了...

【技术保护点】
1.一种面向分级读物的多尺度难度向量分类方法，其特征在于，所述的分类方法包括以下步骤：/nS1、预先对web html文本格式的原始文本数据进行清洗，再进行分句，分类每一个样本；/nS2、将文本切分为句子s＝(s

【技术特征摘要】
1.一种面向分级读物的多尺度难度向量分类方法，其特征在于，所述的分类方法包括以下步骤：
S1、预先对webhtml文本格式的原始文本数据进行清洗，再进行分句，分类每一个样本；
S2、将文本切分为句子s＝(s1,s2,…sT)，T为分句后的句子数量，每个句子切分为词w＝(w1,w2,…wS)，S为每个句子的词语数量；
S3、将文本句子输入到特征提取器m1中，特征提取器m1提取15个效果最为显著的基础词法特征和句法特征，该词法特征包括用于表示出现频次的词频、音节数、单词字符个数、用于表示情感词典分数的词极性、用于表示逆文档概率的IDF值、用于表示Word2vec向量的词向量、用于表示词向量的聚类标签的词聚类、单词含义个数，将以上词法特征求和并用句子长度做归一化得到词法向量ew；该句法特征包括句子长度、特殊符号个数、停用词个数、句子中特性词个数，将以上句法特征拼接得到句法特征es，词法特征ew和句法特征es拼接得到每个句子的基础特征表示为特征向量，上标为向量维度；
S4、将文本句子输入到特征提取器m2中，特征提取器m2提取6个词法特征，包括：用于度量一个概率分布或概率模型预测样本的好坏程度的句子困惑度、通过主题模型隐含狄利克雷分布获得的句子主题类型、用于表示人学会该单词的平均年龄的词语学会年龄、用于体现句法结构的复杂程度的句法树宽度、用于表示前后句词向量的余弦相似度的前后句子相似度、前后句子使用词汇的重叠度，将以上的词法特征求和并用句子长度做归一化得到词法向量ew，与句法特征es拼接，得到每个句子的多尺度特征表示
S5、将句子的基础特征表示和多尺度特征表示拼接起来，获得句子最终的特征表示
S6、将特征表示输入梯度提升树模型中，其中梯度提升树模型是用于回归和分类问题的机器学习技术，其以弱预测模型的集合的形式产生预测模型，根据梯度提升树模型输出结果和训练数据真实结果训练梯度提升树模型，利用训练好的模型在测试数据上得到最终结果的准确率accuracy值，并计算特征重要性排序。

【专利技术属性】
技术研发人员：马千里，陈海斌，田帅，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人