System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能的,具体涉及一种基于xgboost算法的英语文本智能聚类评分方法及装置。
技术介绍
1、在英文文本聚类领域已做了大量的理论及应用研究,将文本聚类应用于语言处理、文本挖掘、智能评分和信息检索等领域。peg系统(project essay grade,peg)是最早出现的自动文章评分系统,该系统利用文本的浅层语言学特征进行分析评分;智能文章评分系统(intelligent essay assessor,iea)是在潜在语义分析(latent semanticanalysis,lsa)技术的基础上开发的,潜在语义分析是一个用于文本索引和信息提取的复杂统计技术。电子文章评分系统(electronic essay rater,e-rater)是利用统计自然语言处理技术抽取语言学特征对文章进行归类评分。贝叶斯文章评分系统(bayesian essaytest scoring system,betsy)是以概率论为指导,基于训练语料对文本进行分类的系统。
2、但是,在目前由于文本的复杂性仍存在几点问题:第一,文本对象的高维性与稀疏性的处理难度大。由于特征词数量庞大,且待处理文本往往是大数据级别,导致用向量空间模型表示文档集合之后的矩阵高维且稀疏,使得处理难度大,相似度的计算准确度下降。第二,同义词和近义词问题。若忽略同义词或近义词之间的联系,把它们作为独立的特征项,会造成特征冗余,同时使聚类精度下降。第三,效率与精度之间的平衡问题:许多研究人员在经典算法的基础上寻求与其他算法的组合,以求达到更高精度,如使用遗
技术实现思路
1、本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于xgboost算法的英语文本智能聚类评分方法及装置,通过利用粒子群优化算法跨领域地调整全局和局部的特征搜索能力,根据权重对特征词的进一步筛选,得到维度更小的特征子集,提高系统的全局搜索能力和收敛速度,大大加快文本聚类的速度。
2、为了达到上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供了一种基于xgboost算法的英语文本智能聚类评分方法,包括下述步骤:
4、对原始英文文本数据进行单词分词处理,筛选停用词,获取文本特征词集;
5、计算文本特征词集的文档频率,按照设定比例与文档频率进行粗选择,形成特征词子集;
6、构建基于xgboost英文文本智能聚类评分模型,模型包括tf-idf算法模块、改进的粒子群优化模块和聚类模块;利用tf-idf算法模块将特征词子集转换形成文本向量,选取所需要的特征词,计算特征值权重,遍历各个文本向量,根据所选特征词进行编码;利用改进的粒子群优化模块迭代计算特征词的适应值,根据特征值权重对特征词进行择优,选择适应值最优且全局最优的特征词,解码后获取最终的特征子集;
7、利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果;经过多次训练后,获取训练好的基于xgboost英文文本智能聚类评分模型;
8、将待评分文本输入训练好的基于xgboost英文文本智能聚类评分模型中,根据聚类结果对输入的文本进行评估。
9、作为优选的技术方案,所述单词分词处理,包括以下步骤:
10、设置待分字符串s=c1,c2,…,cn,其中ci为单个的字,i=1,2,…,n,n为串的长度,n≥1;
11、建立一个结点数为n+1的切分有向无环图g,各结点编号依次为v0,v1,…,vn,其中相邻结点vk-1,vk之间建立有向边<vk-1,vk>,边的长度值为lk,边对应的词默认为ck,k=1,2,…,n;
12、若w=cici+1…cj是一个词,则建立结点vi-1,vj之间有向边<vi-1,vj>,边的长度值为lw,边对应的词为w,0<i<j≤n。
13、作为优选的技术方案,所述粗选择,具体为:按照一定的比例,删除文本频率特定范围的特征词。
14、作为优选的技术方案,所述计算特征值权重,包括以下步骤:
15、计算文本中词的反文档频率idf,如下式:
16、
17、所述特征值权重,如下式:
18、wij=tfij×idfi
19、其中,n为集合中的文本总数,tfij为特征ti在文本dj中出现的次数,dfi为文本集合中出现特征ti的文本数。
20、作为优选的技术方案,所述计算特征词的适应值,具体为:
21、
22、其中,m表示从每代中抽取的随机文本数,|p|表示表示种群大小,di(j)表示用第j个个体表示的第i个文本,i表示第i个文本,j表示第j个个体,ind表示第ind个个体。
23、作为优选的技术方案,所述利用改进的粒子群优化模块迭代计算特征词的适应值,通过计算特征值权重对特征词进行择优,选择适应值最优且全局最优的特征词,具体为:
24、计算每个特征词的适应值,按照特征值权重初始化组内最优解和全局最优位置;
25、将每个特征词按照设定的方式更新速度和位置;
26、继续计算每个特征词的适应值,在每个单词分组中将当前的适应值与组内最优解对比,若当前的适应值更优,则将当前的适应值更新为新组内最优解;
27、将各个单词分组的新组内最优解进行对比,获取新全局最优解;将新全局最优解与全局最优位置进行对比,若新全局最优解更优,则将全局最优位置更新;
28、根据设定精度条件或者迭代次数,迭代终止,在全局最优位置中输出适应值最优且全局最优的特征词。
29、作为优选的技术方案,所述将每个特征词按照设定的方式更新速度和位置,具体为:
30、当精度或者迭代次数小于设定值时,将速度和位置更新,如下式:
31、
32、
33、当速度大于设定阈值,则:
34、
35、当速度小于设定阈值,则:
36、
37、其中,ω表示惯性权重,表示在迭代次数t时粒子id的速度,c1、c2表示学习因子,r1表示0到1之间的随机数,r2表示0到1之间的随机数,表示在迭代次数t时粒子id的位置,表示组内最优解的集合,表示全局最优位置的集合,表示在迭代次数t+1时粒子id的速度;
38、当精度或者迭代次数出现其他情况时,如下式:
39、
40、
41、当时,
42、当时,
43、其中,表示粒子id更新速度的sigmoid值,表示在迭代次数t+1时粒子id的速度,xid表示粒子id的位置。
44、作为优选的技术方案,所述利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果,具体为:本文档来自技高网...
【技术保护点】
1.基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,包括下述步骤:
2.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述单词分词处理,包括以下步骤:
3.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述粗选择,具体为:按照一定的比例,删除文本频率特定范围的特征词。
4.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述计算特征值权重,包括以下步骤:
5.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述计算特征词的适应值,具体为:
6.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述利用改进的粒子群优化模块迭代计算特征词的适应值,通过计算特征值权重对特征词进行择优,选择适应值最优且全局最优的特征词,具体为:
7.根据权利要求6所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述将每个特征词按照设定的方式更
8.根据权利要求1所述基于XGBOOST算法的英语文本智能聚类评分方法,其特征在于,所述利用聚类模块对最终的特征子集进行聚类,根据自回归条件期望值选取簇,当簇达到指定数量后输出聚类结果,具体为:
9.基于XGBOOST算法的英语文本智能聚类评分系统,其特征在于,应用于权利要求1-8中任一项所述的基于XGBOOST算法的英语文本智能聚类评分方法,包括特征工程模块、粗选择模块、再选择模块、模型训练模块以及聚类评分模块;
10.一种电子设备,其特征在于,所述电子设备包括:
...【技术特征摘要】
1.基于xgboost算法的英语文本智能聚类评分方法,其特征在于,包括下述步骤:
2.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述单词分词处理,包括以下步骤:
3.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述粗选择,具体为:按照一定的比例,删除文本频率特定范围的特征词。
4.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述计算特征值权重,包括以下步骤:
5.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述计算特征词的适应值,具体为:
6.根据权利要求1所述基于xgboost算法的英语文本智能聚类评分方法,其特征在于,所述利用改进的粒子群优化模块...
【专利技术属性】
技术研发人员:李康顺,曾照莲,姚婉仪,雷加伟,曾嘉,文培桦,陈菲云,
申请(专利权)人:华南农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。