基于XGBOOST算法的英语文本智能聚类评分方法及装置制造方法及图纸

技术编号：41488391 阅读：19 留言：0更新日期：2024-05-30 14:35

本发明专利技术公开了一种基于XGBOOST算法的英语文本智能聚类评分方法及装置，方法包括：对原始英文文本数据进行数据预处理，运用N‑最短路径算法与停用词表对特征词进行提取；粗筛选：按一定比例，删去文本中频率特别高和频率特别低的特征词，形成特征词子集；再筛选：利用改进的粒子群优化算法，对特征进行再选择，并通过解码得到最终的特征子集；利用聚类模块对最终的特征子集进行聚类，根据自回归条件期望值选取簇，当簇达到指定数量后输出聚类结果，经过训练后，利用训练好的基于XGBOOST英文文本智能聚类评分模型中，根据聚类结果对输入的文本进行评估。本发明专利技术能够通过降低英文文本特征维度，提高系统的全局搜索能力和收敛速度，大大加快文本聚类的速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能的，具体涉及一种基于xgboost算法的英语文本智能聚类评分方法及装置。

技术介绍

1、在英文文本聚类领域已做了大量的理论及应用研究，将文本聚类应用于语言处理、文本挖掘、智能评分和信息检索等领域。peg系统(project essay grade，peg)是最早出现的自动文章评分系统，该系统利用文本的浅层语言学特征进行分析评分；智能文章评分系统(intelligent essay assessor，iea)是在潜在语义分析(latent semanticanalysis，lsa)技术的基础上开发的，潜在语义分析是一个用于文本索引和信息提取的复杂统计技术。电子文章评分系统(electronic essay rater，e-rater)是利用统计自然语言处理技术抽取语言学特征对文章进行归类评分。贝叶斯文章评分系统(bayesian essaytest scoring system，betsy)是以概率论为指导，基于训练语料对文本进行分类的系统。

2、但是，在目前由于文本的复杂性仍存在几点问题：第一，文本对象的高维性与稀疏性的处理难度大。由于特征词数量庞大，且待处理文本往往是大数据级别，导致用向量空间模型表示文档集合之后的矩阵高维且稀疏，使得处理难度大，相似度的计算准确度下降。第二，同义词和近义词问题。若忽略同义词或近义词之间的联系，把它们作为独立的特征项，会造成特征冗余，同时使聚类精度下降。第三，效率与精度之间的平衡问题：许多研究人员在经典算法的基础上寻求与其他算法的组合，以求达到更高精度，如使用遗

技术实现思路

1、本专利技术的主要目的在于克服现有技术的缺点与不足，提供一种基于xgboost算法的英语文本智能聚类评分方法及装置，通过利用粒子群优化算法跨领域地调整全局和局部的特征搜索能力，根据权重对特征词的进一步筛选，得到维度更小的特征子集，提高系统的全局搜索能力和收敛速度，大大加快文本聚类的速度。

2、为了达到上述目的，本专利技术采用以下技术方案：

3、第一方面，本专利技术提供了一种基于xgboost算法的英语文本智能聚类评分方法，包括下述步骤：

4、对原始英文文本数据进行单词分词处理，筛选停用词，获取文本特征词集；

5、计算文本特征词集的文档频率，按照设定比例与文档频率进行粗选择，形成特征词子集；

6、构建基于xgboost英文文本智能聚类评分模型，模型包括tf-idf算法模块、改进的粒子群优化模块和聚类模块；利用tf-idf算法模块将特征词子集转换形成文本向量，选取所需要的特征词，计算特征值权重，遍历各个文本向量，根据所选特征词进行编码；利用改进的粒子群优化模块迭代计算特征词的适应值，根据特征值权重对特征词进行择优，选择适应值最优且全局最优的特征词，解码后获取最终的特征子集；

7、利用聚类模块对最终的特征子集进行聚类，根据自回归条件期望值选取簇，当簇达到指定数量后输出聚类结果；经过多次训练后，获取训练好的基于xgboost英文文本智能聚类评分模型；

8、将待评分文本输入训练好的基于xgboost英文文本智能聚类评分模型中，根据聚类结果对输入的文本进行评估。

9、作为优选的技术方案，所述单词分词处理，包括以下步骤：

10、设置待分字符串s＝c1,c2,…,cn，其中ci为单个的字，i＝1,2,…,n，n为串的长度，n≥1；

11、建立一个结点数为n+1的切分有向无环图g，各结点编号依次为v0,v1,…,vn，其中相邻结点vk-1,vk之间建立有向边<vk-1,vk>，边的长度值为lk，边对应的词默认为ck,k＝1,2,…,n；

12、若w＝cici+1…cj是一个词，则建立结点vi-1,vj之间有向边<vi-1,vj>，边的长度值为lw，边对应的词为w，0＜i＜j≤n。

13、作为优选的技术方案，所述粗选择，具体为：按照一定的比例，删除文本频率特定范围的特征词。

14、作为优选的技术方案，所述计算特征值权重，包括以下步骤：

15、计算文本中词的反文档频率idf，如下式：

16、

17、所述特征值权重，如下式：

18、wij＝tfij×idfi

19、其中，n为集合中的文本总数，tfij为特征ti在文本dj中出现的次数，dfi为文本集合中出现特征ti的文本数。

20、作为优选的技术方案，所述计算特征词的适应值，具体为：

21、

22、其中，m表示从每代中抽取的随机文本数，|p|表示表示种群大小，di(j)表示用第j个个体表示的第i个文本，i表示第i个文本，j表示第j个个体，ind表示第ind个个体。

23、作为优选的技术方案，所述利用改进的粒子群优化模块迭代计算特征词的适应值，通过计算特征值权重对特征词进行择优，选择适应值最优且全局最优的特征词，具体为：

24、计算每个特征词的适应值，按照特征值权重初始化组内最优解和全局最优位置；

25、将每个特征词按照设定的方式更新速度和位置；

26、继续计算每个特征词的适应值，在每个单词分组中将当前的适应值与组内最优解对比，若当前的适应值更优，则将当前的适应值更新为新组内最优解；

27、将各个单词分组的新组内最优解进行对比，获取新全局最优解；将新全局最优解与全局最优位置进行对比，若新全局最优解更优，则将全局最优位置更新；

28、根据设定精度条件或者迭代次数，迭代终止，在全局最优位置中输出适应值最优且全局最优的特征词。

29、作为优选的技术方案，所述将每个特征词按照设定的方式更新速度和位置，具体为：

30、当精度或者迭代次数小于设定值时，将速度和位置更新，如下式：

31、

32、

33、当速度大于设定阈值，则：

34、

35、当速度小于设定阈值，则：

36、

37、其中，ω表示惯性权重，表示在迭代次数t时粒子id的速度，c1、c2表示学习因子，r1表示0到1之间的随机数，r2表示0到1之间的随机数，表示在迭代次数t时粒子id的位置，表示组内最优解的集合，表示全局最优位置的集合，表示在迭代次数t+1时粒子id的速度；

38、当精度或者迭代次数出现其他情况时，如下式：

39、

40、

41、当时，

42、当时，

43、其中，表示粒子id更新速度的sigmoid值，表示在迭代次数t+1时粒子id的速度，xid表示粒子id的位置。

44、作为优选的技术方案，所述利用聚类模块对最终的特征子集进行聚类，根据自回归条件期望值选取簇，当簇达到指定数量后输出聚类结果，具体为：本文档来自技高网...

【技术保护点】

1.基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述单词分词处理，包括以下步骤：

3.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述粗选择，具体为：按照一定的比例，删除文本频率特定范围的特征词。

4.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述计算特征值权重，包括以下步骤：

5.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述计算特征词的适应值，具体为：

6.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述利用改进的粒子群优化模块迭代计算特征词的适应值，通过计算特征值权重对特征词进行择优，选择适应值最优且全局最优的特征词，具体为：

7.根据权利要求6所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述将每个特征词按照设定的方式更新速度和位置，具体为：

8.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法，其特征在于，所述利用聚类模块对最终的特征子集进行聚类，根据自回归条件期望值选取簇，当簇达到指定数量后输出聚类结果，具体为：

9.基于XGBOOST算法的英语文本智能聚类评分系统，其特征在于，应用于权利要求1-8中任一项所述的基于XGBOOST算法的英语文本智能聚类评分方法，包括特征工程模块、粗选择模块、再选择模块、模型训练模块以及聚类评分模块；

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.基于xgboost算法的英语文本智能聚类评分方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法，其特征在于，所述单词分词处理，包括以下步骤：

3.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法，其特征在于，所述粗选择，具体为：按照一定的比例，删除文本频率特定范围的特征词。

4.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法，其特征在于，所述计算特征值权重，包括以下步骤：

5.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法，其特征在于，所述计算特征词的适应值，具体为：

6.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法，其特征在于，所述利用改进的粒子群优化模块...

【专利技术属性】
技术研发人员：李康顺，曾照莲，姚婉仪，雷加伟，曾嘉，文培桦，陈菲云，
申请(专利权)人：华南农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人