一种基于文本特征融合的英语阅读材料难度判断的方法技术

技术编号:36434015 阅读:21 留言:0更新日期:2023-01-20 22:47
本发明专利技术涉及一种基于文本特征融合的英语阅读材料难度判断的方法,属于自然语言处理相关领域。首先针对英语阅读材料数据集,对输入的英文文本进行编码,将编码后结果输入到预训练语言模型中,计算得到包含语义信息的特征向量。然后对英文文本进行词性标注,将得到的词性序列输入到LSTM中,计算得到包含语法信息的特征向量。针对影响英语阅读材料难易程度的因素,对相关因素进行统计并进行特征提取。将得到的所有特征向量进行拼接后输入全连接层,最后经过sigmoid输出一个0到1的数值用来表示难度。本发明专利技术能有效地判断英语阅读材料的难度,更好地辅助英语教学中的各种自适应学习服务。更好地辅助英语教学中的各种自适应学习服务。更好地辅助英语教学中的各种自适应学习服务。

【技术实现步骤摘要】
一种基于文本特征融合的英语阅读材料难度判断的方法


[0001]本专利技术涉及一种基于文本特征融合的英语阅读材料难度判断的方法,属于自然语言处理


技术介绍

[0002]英语作为被广泛学习的第二语言,阅读又作为英语学习中重要的组成部分,如何对英语阅读材料的难度进行准确的判断,使具有不同英语水平的人可以接受适合其自身英语水平的教育,进一步促进个性化学习显得尤为重要。
[0003]20世纪初期出现了有关测定英语阅读材料难易程度的研究,直到现在针对英语阅读材料难度判断的研究都是国内外相关研究者所关注的核心问题。因此,众多研究者针对影响英语阅读材料难易程度的因素进行了大量研究,总结出很多影响因素,产生了很多计算英语阅读材料难易程度的公式,这些公式长久以来,一直在帮助人们选择合适的英文文本。但是随着信息化的不断发展,所产生的文本愈发复杂,而通过制定规则的方法通常较为简单,不具备良好的泛化能力,因此无法取得良好的效果。
[0004]随着语言模型的不断发展,2018年10月谷歌提出了BERT(Bidirectional Encoder Representation from Transformers)模型,使得自然语言处理领域的发展进入了新的阶段。BERT是一种预训练的语言模型,它不像传统的语言模型一样只采用单向的语言模型或者是将两个单向语言模型进行浅层拼接的方式进行训练,而是采用MLM(masked language model)对双向的Transformers进行与训练,生成深层的双向语言表征,并在11种不同的自然语言处理(Natural Language Processing,NLP)测试中表现优异。许多学者结合BERT进行自然语言处理领域中的其他任务都取得了较好的效果,这种将已经训练好的模型迁移到新的模型中进行训练的方式叫做迁移学习(Transfer learning)。考虑到大部分的任务具有一定的相关性,所以将已经学习到的参数通过某种方式传递给新模型,可以大大加快模型的效率。Fine

tuning作为迁移学习的其中一种方法,通过冻结预训练模型中的卷积层,训练其他的卷积层和全连接层,可以进一步提高模型的学习时间、降低了模型训练的成本。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种基于文本特征融合的英语阅读材料难度判断的方法,用于提高英语阅读材料难度判断的准确率和效率。
[0006]本专利技术通过总结语言学家在影响英语阅读材料难度因素的观点,并考虑到预训练语言模型在自然语言处理任务中的优势,提出了一种基于文本特征融合的英语阅读材料难度判断的方法,将多种文本特征进行融合,利用深度学习技术对英语阅读材料进行难度判断。
[0007]本专利技术的技术方案是:一种基于文本特征融合的英语阅读材料难度判断的方法,首先针对英语阅读材料数据集,对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量;然后对输入的文本进行词性
标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量;对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层,最后经过sigmoid层输出得到一个0到1的数值表示难度。
[0008]所述英语阅读难度的判断具体步骤如下:
[0009]Step1:使用预训练语言模型提取文本的语义特征。
[0010]首先针对英语阅读材料数据集(使用Newsela数据集及自行采集的数据集进行实验),对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量。
[0011]具体过程为首先提取句子中的词、句位置以及词位置等信息进行One

hot编码,输入预训练语言模型,获取语义特征向量,本专利技术的预训练模型选择Bert模型。
[0012]Step2:语法信息特征提取。
[0013]对文本进行词性标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量。
[0014]Step3:统计信息特征提取。
[0015]对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层,最后经过sigmoid层输出得到一个0到1的数值表示难度。
[0016]Step4:难度预测。
[0017]经过sigmoid层输出得到一个0到1的数值表示难度。
[0018]所述Step1具体为:
[0019]Step1.1:假设当前输入的英文文本为S
t
,S
t
中包含n个单词,S
t
={w1,w2,

,w
i
,

,w
n
},其中w
i
表示第i个单词。
[0020]Bert模型通常在句首添加[CLS]用以表示一个段落的开始,在两个句子的中间添加[SEP]用于分隔句子。
[0021]转化后的句子为S
BERT
={[CLS],w1,w2,

,[SEP],

,w
n
‑2,w
n
‑1,w
n
,[SEP]}。
[0022]Step1.2:将S
BERT
的最大长度设置为M,若S
t
的长度不足M,则对S
BERT
添加[PAD]进行补齐,补齐操作后的S
BERT
为:
[0023]S
BERT
={[CLS],w1,w2,

,[SEP],

,w
n
‑2,w
n
‑1,w
n
,[SEP],

,[PAD]}
[0024]若S
t
的长度大于M,则截断并舍去后续内容,截断操作后的S
BERT
为:
[0025]S
BERT
={[CLS],w1,w2,

,[SEP],

,w
M
‑2,w
M
‑1,w
M
,[SEP]}
[0026]Step1.3:对S
BERT
中的每一个内容进行embedding编码,即:
[0027][0028]其中,D
BERT
表示预训练语言模型设定的嵌入维度。
[0029]Step1.4:对S
BERT
中的内容进行句位置编码,即:
[0030]S
segmentembedding
={E
A
,E
A
,E
A
,E
B
,E
B
,E...

【技术保护点】

【技术特征摘要】
1.一种基于文本特征融合的英语阅读材料难度判断的方法,其特征在于:Step1:首先针对英语阅读材料数据集,对输入的英文文本进行编码,将编码后的信息输入到已经训练好的预训练语言模型中,得到包含语义信息的特征向量;Step2:对文本进行词性标注,将得到的词性序列输入到LSTM得到包含语法信息的特征向量;Step3:统计信息特征提取;对影响英语阅读材料难度的因素进行统计并对其进行嵌入表示,将所有特征进行拼接后输入全连接层;Step4:最后,经过sigmoid层输出得到一个0到1的数值表示难度,完成难度判断。2.根据权利要求1所述的基于文本特征融合的英语阅读材料难度判断的方法,其特征在于,所述Step1具体为:Step1.1:假设当前输入的英文文本为S
t
,S
t
中包含n个单词,S
t
={w1,w2,...,w
i
,...,w
n
},其中w
i
表示第i个单词;转化后的句子为S
BERT
={[CLS],w1,w2,...,[SEP],...,w
n
‑2,w
n
‑1,w
n
,[SEP]};Step1.2:将S
BERT
的最大长度设置为M,若S
t
的长度不足M,则对S
BERT
添加[PAD]进行补齐,补齐操作后的S
BERT
为:S
BERT
={[CLS],w1,w2,

,[SEP],

,w
n
‑2,w
n
‑1,w
n
,[SEP],

,[PAD]}若S
t
的长度大于M,则截断并舍去后续内容,截断操作后的S
BERT
为:S
BERT
={[CLS],w1,w2,

,[SEP],

,w
M
‑2,w
M
‑1,w
M
,[SEP]}Step1.3:对S
BERT
中的每一个内容进行embedding编码,即:其中,D
BERT
表示预训练语言模型设定的嵌入维度;Step1.4:对S
BERT
中的内容进行句位置编码,即:S
segmentembedding
={E
A
,E
A
,E
A
,E
B
,E
B
,E
B
,E
B
,...,E
i
,E
i
}其中,E
A
表示第一句话,E
B
表示第二句话,后续句子以此类推,E
i
表示第i句话;Step1.5:对S
BERT
中的内容进行词位置编码,即:S
position embedding
={E1,E2,E3,

,E
i


,E
n
‑2,E
n
‑1,E
n


,E
M

【专利技术属性】
技术研发人员:甘健侯王宇辰李子杰周菊香欧阳昭相陈恳
申请(专利权)人:云南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1