System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于XGBOOST算法的英语文本智能聚类评分方法及装置制造方法及图纸_技高网

基于XGBOOST算法的英语文本智能聚类评分方法及装置制造方法及图纸

技术编号:41488391 阅读:6 留言:0更新日期:2024-05-30 14:35
本发明专利技术公开了一种基于XGBOOST算法的英语文本智能聚类评分方法及装置,方法包括:对原始英文文本数据进行数据预处理,运用N‑最短路径算法与停用词表对特征词进行提取;粗筛选:按一定比例,删去文本中频率特别高和频率特别低的特征词,形成特征词子集;再筛选:利用改进的粒子群优化算法,对特征进行再选择,并通过解码得到最终的特征子集;利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果,经过训练后,利用训练好的基于XGBOOST英文文本智能聚类评分模型中,根据聚类结果对输入的文本进行评估。本发明专利技术能够通过降低英文文本特征维度,提高系统的全局搜索能力和收敛速度,大大加快文本聚类的速度。

【技术实现步骤摘要】

本专利技术属于人工智能的,具体涉及一种基于xgboost算法的英语文本智能聚类评分方法及装置。


技术介绍

1、在英文文本聚类领域已做了大量的理论及应用研究,将文本聚类应用于语言处理、文本挖掘、智能评分和信息检索等领域。peg系统(project essay grade,peg)是最早出现的自动文章评分系统,该系统利用文本的浅层语言学特征进行分析评分;智能文章评分系统(intelligent essay assessor,iea)是在潜在语义分析(latent semanticanalysis,lsa)技术的基础上开发的,潜在语义分析是一个用于文本索引和信息提取的复杂统计技术。电子文章评分系统(electronic essay rater,e-rater)是利用统计自然语言处理技术抽取语言学特征对文章进行归类评分。贝叶斯文章评分系统(bayesian essaytest scoring system,betsy)是以概率论为指导,基于训练语料对文本进行分类的系统。

2、但是,在目前由于文本的复杂性仍存在几点问题:第一,文本对象的高维性与稀疏性的处理难度大。由于特征词数量庞大,且待处理文本往往是大数据级别,导致用向量空间模型表示文档集合之后的矩阵高维且稀疏,使得处理难度大,相似度的计算准确度下降。第二,同义词和近义词问题。若忽略同义词或近义词之间的联系,把它们作为独立的特征项,会造成特征冗余,同时使聚类精度下降。第三,效率与精度之间的平衡问题:许多研究人员在经典算法的基础上寻求与其他算法的组合,以求达到更高精度,如使用遗传算法优化聚类的初始中心点,但同时,提高了算法的时间复杂度,降低了效率。


技术实现思路

1、本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于xgboost算法的英语文本智能聚类评分方法及装置,通过利用粒子群优化算法跨领域地调整全局和局部的特征搜索能力,根据权重对特征词的进一步筛选,得到维度更小的特征子集,提高系统的全局搜索能力和收敛速度,大大加快文本聚类的速度。

2、为了达到上述目的,本专利技术采用以下技术方案:

3、第一方面,本专利技术提供了一种基于xgboost算法的英语文本智能聚类评分方法,包括下述步骤:

4、对原始英文文本数据进行单词分词处理,筛选停用词,获取文本特征词集;

5、计算文本特征词集的文档频率,按照设定比例与文档频率进行粗选择,形成特征词子集;

6、构建基于xgboost英文文本智能聚类评分模型,模型包括tf-idf算法模块、改进的粒子群优化模块和聚类模块;利用tf-idf算法模块将特征词子集转换形成文本向量,选取所需要的特征词,计算特征值权重,遍历各个文本向量,根据所选特征词进行编码;利用改进的粒子群优化模块迭代计算特征词的适应值,根据特征值权重对特征词进行择优,选择适应值最优且全局最优的特征词,解码后获取最终的特征子集;

7、利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果;经过多次训练后,获取训练好的基于xgboost英文文本智能聚类评分模型;

8、将待评分文本输入训练好的基于xgboost英文文本智能聚类评分模型中,根据聚类结果对输入的文本进行评估。

9、作为优选的技术方案,所述单词分词处理,包括以下步骤:

10、设置待分字符串s=c1,c2,…,cn,其中ci为单个的字,i=1,2,…,n,n为串的长度,n≥1;

11、建立一个结点数为n+1的切分有向无环图g,各结点编号依次为v0,v1,…,vn,其中相邻结点vk-1,vk之间建立有向边<vk-1,vk>,边的长度值为lk,边对应的词默认为ck,k=1,2,…,n;

12、若w=cici+1…cj是一个词,则建立结点vi-1,vj之间有向边<vi-1,vj>,边的长度值为lw,边对应的词为w,0<i<j≤n。

13、作为优选的技术方案,所述粗选择,具体为:按照一定的比例,删除文本频率特定范围的特征词。

14、作为优选的技术方案,所述计算特征值权重,包括以下步骤:

15、计算文本中词的反文档频率idf,如下式:

16、

17、所述特征值权重,如下式:

18、wij=tfij×idfi

19、其中,n为集合中的文本总数,tfij为特征ti在文本dj中出现的次数,dfi为文本集合中出现特征ti的文本数。

20、作为优选的技术方案,所述计算特征词的适应值,具体为:

21、

22、其中,m表示从每代中抽取的随机文本数,|p|表示表示种群大小,di(j)表示用第j个个体表示的第i个文本,i表示第i个文本,j表示第j个个体,ind表示第ind个个体。

23、作为优选的技术方案,所述利用改进的粒子群优化模块迭代计算特征词的适应值,通过计算特征值权重对特征词进行择优,选择适应值最优且全局最优的特征词,具体为:

24、计算每个特征词的适应值,按照特征值权重初始化组内最优解和全局最优位置;

25、将每个特征词按照设定的方式更新速度和位置;

26、继续计算每个特征词的适应值,在每个单词分组中将当前的适应值与组内最优解对比,若当前的适应值更优,则将当前的适应值更新为新组内最优解;

27、将各个单词分组的新组内最优解进行对比,获取新全局最优解;将新全局最优解与全局最优位置进行对比,若新全局最优解更优,则将全局最优位置更新;

28、根据设定精度条件或者迭代次数,迭代终止,在全局最优位置中输出适应值最优且全局最优的特征词。

29、作为优选的技术方案,所述将每个特征词按照设定的方式更新速度和位置,具体为:

30、当精度或者迭代次数小于设定值时,将速度和位置更新,如下式:

31、

32、

33、当速度大于设定阈值,则:

34、

35、当速度小于设定阈值,则:

36、

37、其中,ω表示惯性权重,表示在迭代次数t时粒子id的速度,c1、c2表示学习因子,r1表示0到1之间的随机数,r2表示0到1之间的随机数,表示在迭代次数t时粒子id的位置,表示组内最优解的集合,表示全局最优位置的集合,表示在迭代次数t+1时粒子id的速度;

38、当精度或者迭代次数出现其他情况时,如下式:

39、

40、

41、当时,

42、当时,

43、其中,表示粒子id更新速度的sigmoid值,表示在迭代次数t+1时粒子id的速度,xid表示粒子id的位置。

44、作为优选的技术方案,所述利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果,具体为:本文档来自技高网...

【技术保护点】

1.基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,包括下述步骤:

2.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述单词分词处理,包括以下步骤:

3.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述粗选择,具体为:按照一定的比例,删除文本频率特定范围的特征词。

4.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述计算特征值权重,包括以下步骤:

5.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述计算特征词的适应值,具体为:

6.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述利用改进的粒子群优化模块迭代计算特征词的适应值,通过计算特征值权重对特征词进行择优,选择适应值最优且全局最优的特征词,具体为:

7.根据权利要求6所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述将每个特征词按照设定的方式更新速度和位置,具体为:

8.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果,具体为:

9.基于XGBOOST算法的英语文本智能聚类评分系统,其特征在于,应用于权利要求1-8中任一项所述的基于XGBOOST算法的英语文本智能聚类评分方法,包括特征工程模块、粗选择模块、再选择模块、模型训练模块以及聚类评分模块;

10.一种电子设备,其特征在于,所述电子设备包括:

...

【技术特征摘要】

1.基于xgboost算法的英语文本智能聚类评分方法,其特征在于,包括下述步骤:

2.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述单词分词处理,包括以下步骤:

3.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述粗选择,具体为:按照一定的比例,删除文本频率特定范围的特征词。

4.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述计算特征值权重,包括以下步骤:

5.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述计算特征词的适应值,具体为:

6.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述利用改进的粒子群优化模块...

【专利技术属性】
技术研发人员:李康顺曾照莲姚婉仪雷加伟曾嘉文培桦陈菲云
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1