【技术实现步骤摘要】
一种基于文本特征融合的英语阅读材料难度判断的方法
[0001]本专利技术涉及一种基于文本特征融合的英语阅读材料难度判断的方法,属于自然语言处理
技术介绍
[0002]英语作为被广泛学习的第二语言,阅读又作为英语学习中重要的组成部分,如何对英语阅读材料的难度进行准确的判断,使具有不同英语水平的人可以接受适合其自身英语水平的教育,进一步促进个性化学习显得尤为重要。
[0003]20世纪初期出现了有关测定英语阅读材料难易程度的研究,直到现在针对英语阅读材料难度判断的研究都是国内外相关研究者所关注的核心问题。因此,众多研究者针对影响英语阅读材料难易程度的因素进行了大量研究,总结出很多影响因素,产生了很多计算英语阅读材料难易程度的公式,这些公式长久以来,一直在帮助人们选择合适的英文文本。但是随着信息化的不断发展,所产生的文本愈发复杂,而通过制定规则的方法通常较为简单,不具备良好的泛化能力,因此无法取得良好的效果。
[0004]随着语言模型的不断发展,2018年10月谷歌提出了BERT(Bidirectional Encoder Representation from Transformers)模型,使得自然语言处理领域的发展进入了新的阶段。BERT是一种预训练的语言模型,它不像传统的语言模型一样只采用单向的语言模型或者是将两个单向语言模型进行浅层拼接的方式进行训练,而是采用MLM(masked language model)对双向的Transformers进行与训练,生成深层的双向语言表征,并在11种
【技术保护点】
【技术特征摘要】
1.一种基于文本特征融合的英语阅读材料难度判断的方法,其特征在于:Step1:首先针对英语阅读材料数据集,对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量;Step2:对文本进行词性标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量;Step3:统计信息特征提取;对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层;Step4:最后,经过sigmoid层输出得到一个0到1的数值表示难度,完成难度判断。2.根据权利要求1所述的基于文本特征融合的英语阅读材料难度判断的方法,其特征在于,所述Step1具体为:Step1.1:假设当前输入的英文文本为S
t
,S
t
中包含n个单词,S
t
={w1,w2,...,w
i
,...,w
n
},其中w
i
表示第i个单词;转化后的句子为S
BERT
={[CLS],w1,w2,...,[SEP],...,w
n
‑2,w
n
‑1,w
n
,[SEP]};Step1.2:将S
BERT
的最大长度设置为M,若S
t
的长度不足M,则对S
BERT
添加[PAD]进行补齐,补齐操作后的S
BERT
为:S
BERT
={[CLS],w1,w2,
…
,[SEP],
…
,w
n
‑2,w
n
‑1,w
n
,[SEP],
…
,[PAD]}若S
t
的长度大于M,则截断并舍去后续内容,截断操作后的S
BERT
为:S
BERT
={[CLS],w1,w2,
…
,[SEP],
…
,w
M
‑2,w
M
‑1,w
M
,[SEP]}Step1.3:对S
BERT
中的每一个内容进行embedding编码,即:其中,D
BERT
表示预训练语言模型设定的嵌入维度;Step1.4:对S
BERT
中的内容进行句位置编码,即:S
segmentembedding
={E
A
,E
A
,E
A
,E
B
,E
B
,E
B
,E
B
,...,E
i
,E
i
}其中,E
A
表示第一句话,E
B
表示第二句话,后续句子以此类推,E
i
表示第i句话;Step1.5:对S
BERT
中的内容进行词位置编码,即:S
position embedding
={E1,E2,E3,
…
,E
i
,
…
,E
n
‑2,E
n
‑1,E
n
,
…
,E
M
【专利技术属性】
技术研发人员:甘健侯,王宇辰,李子杰,周菊香,欧阳昭相,陈恳,
申请(专利权)人:云南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。