System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多核函数模糊支持向量机的语言科技资源分类方法技术_技高网
当前位置: 首页 > 专利查询>暨南大学专利>正文

基于多核函数模糊支持向量机的语言科技资源分类方法技术

技术编号:42935150 阅读:4 留言:0更新日期:2024-10-11 15:56
本发明专利技术提供了一种基于多核函数模糊支持向量机的语言科技资源分类方法,涉及语言科技技术领域。包括:获取待分类语言科技资源文本数据;将待分类语言科技资源文本数据输入至目标分类器中,得到数据分类结果;目标分类器的构建方法为:获取目标语言科技资源文本数据;对目标语言科技资源文本数据进行预处理,得到特征向量;基于支持向量机,利用模糊隶属度矩阵对特性向量进行模糊化,得到模糊支持向量机;引入多个核函数并根据多个核函数对应的权重和模糊支持向量机构建目标分类器。本发明专利技术解决了现有技术中自动化语言科技资源文本数据分类过程中处理文本数据存在局限性、确定合适的核函数难度大和数据分类不准确的问题。

【技术实现步骤摘要】

本专利技术涉及语言科技,特别是涉及一种基于多核函数模糊支持向量机的语言科技资源分类方法


技术介绍

1、在当今社会,随着科技的飞速发展和知识经济时代的到来,传统学科之间的边界逐渐模糊,促使教育界和研究领域越来越倾向于跨学科的整合与合作。特别是在语言科技这一领域,这种跨学科的融合尤为重要。语言科技不仅是计算机科学、信息技术与语言学之间的桥梁,也是文理学科交叉融合的典范。为了应对现代社会对复合型高层次人才的迫切需求,构建一个开放共享的语言科技实验平台显得尤为重要。语言科技实验平台的构建是一种理工科实验理念的扩展与创新。它旨在打破传统教育中文理分科的界限,通过整合语言学、计算机科学、信息科学等多学科的优质教育资源,为学生提供一个实践、探索和创新的空间。这种平台能够有效地解决语言科技领域内存在的资源分散、难以整合的瓶颈问题,从而促进复合型人才的培养。语言科技实验平台的建设与运营,不仅仅是一种物理空间的创设,更是一种教育理念和教学方法的革新。在这一平台上,学生可以直接接触到最新的语言科技工具和技术,通过项目驱动学习、团队合作和问题解决,深化对语言科技领域的理解和掌握。那么,聚焦到语言科技这个跨文理学科的交叉学科,大学语言科技方向的学生培养,主要分布在信息科学技术学院与语言学系。信息科学技术学院有信息检索、机器学习、数据挖掘、语音处理与编码等方向;语言学系有语料库、计算语言学、语音处理、心理语言学等方向,这些都是语言科技文理交叉的培养方向。由于缺乏可操作的培养框架指导,目前在培养上存在如下一些瓶颈问题:(1)教师出身是纯文科或者纯理工科,对学科以外的知识,不能对学生进行深入有效的指导。(2)学生毕业论文涉及跨学科的部分,指导教师、评委、同学都看不懂,甚至学生自己也不是很透彻,囫囵吞枣的过关毕业。(3)课程体系上,不科学或不规范的语言科技素养训练,如语言学系给学生开设不了贴近专业的技术课程;信息科学技术学院的学生在从事信息检索及应用、机器学习、数据挖掘研究时,涉及到语言学部分的需求时无从着手。这些问题都是语言科技上,单纯的文科专业和理工专业所不能解决的,要解决该问题,当务之急是建设集中的资源平台,集中优秀的语言科技资源供语言科技学生使用。语言科技资源的获得可以从语言学专业实验平台的数据中心对接过来,可以语言科技实验人员人工录入提供,也可以从网上抓取获得。

2、语言科技资源文本数据的可变性和模糊性是很多智能算法所不能很好处理的。综合已有的这些实际问题,支持向量机(svm)在针对小样本、高维度的确定性分类问题上,表现出特别的优势,并且其分类算法有严格的统计学论据,在编程逻辑上是透明的,这使得该算法更容易切入实际的语言科技资源文本数据的分类需求。语言科技资源文本数据具有非线性、样本分布不平坦、噪声大等问题,支持向量机虽然在解决小样本数据上表现出许多特有的优势,但对于语言科技资源文本数据的模糊性等实际问题,仍存在如下的缺陷:

3、(1)由于支持向量机在训练时对所有训练点是同等对待的,这就会产生一定的局限性,在处理实际语言科技资源文本数据时,应尽可能保持支持向量的作用,弱化非支持向量的作用。

4、(2)svm在解决非线性分类或回归问题过程中,核函数的选取非常重要。传统的svm或者模糊支持向量机(fuzzy supportvectormachine,fsvm)都是基于单个核函数的。对于语言科技资源文本数据分类问题,由于对象之间的差异,找到一个合适的核函数又是比较困难的,往往靠大量的经验所得来完成。这样操作,对自动化语言科技资源文本数据分类,显然并不科学。


技术实现思路

1、为了克服现有技术的不足,本专利技术的目的是提供一种基于多核函数模糊支持向量机的语言科技资源分类方法,本专利技术解决了现有技术中自动化语言科技资源文本数据分类过程中处理文本数据存在局限性、确定合适的核函数难度大和数据分类不准确的问题。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种基于多核函数模糊支持向量机的语言科技资源分类方法,包括:

4、获取待分类语言科技资源文本数据;

5、将所述待分类语言科技资源文本数据输入至目标分类器中,得到数据分类结果;

6、所述目标分类器的构建方法为:

7、获取目标语言科技资源文本数据;

8、对所述目标语言科技资源文本数据进行预处理,得到预处理数据;

9、对所述预处理数据提取特征向量,得到特征向量;

10、基于支持向量机,利用模糊隶属度矩阵对所述特性向量进行模糊化,得到模糊支持向量机;

11、引入多个核函数并根据数据自学习方法确定所述多个核函数对应的权重;

12、根据多个核函数对应的权重和所述模糊支持向量机构建所述目标分类器。

13、优选地,还包括:

14、利用textrank算法凸提取所述分类结果的目标信息;

15、根据所述目标信息得到所述待分类语言科技资源文本数据的文档密级分数;

16、根据所述文档密级分数对所述待分类语言科技资源文本数据进行存储。

17、优选地,所述目标语言科技资源文本数据包括:

18、互联网抓取数据、实验数据和语言科技学科实验平台导入数据。

19、优选地,所述对所述目标语言科技资源文本数据进行预处理,得到预处理数据,包括:

20、对所述目标语言科技资源文本数据进行过滤,得到过滤数据;

21、对所述过滤数据进行中文分词处理,得到分词数据;

22、对所述分词数据进行停用词处理,得到预处理数据。

23、优选地,所述对所述预处理数据提取特征向量,得到特征向量,包括:

24、计算词频、textrank得分、tf-idf权重和位置信息权重;

25、根据所述词频、textrank得分、tf-idf权重和位置信息权重构建特征向量。

26、本专利技术公开了以下技术效果:

27、本专利技术提供了我们提出一种基于多核函数模糊支持向量机的语言科技资源分类方法,包括:获取待分类语言科技资源文本数据;将所述待分类语言科技资源文本数据输入至目标分类器中,得到数据分类结果;所述目标分类器的构建方法为:获取目标语言科技资源文本数据;对所述目标语言科技资源文本数据进行预处理,得到预处理数据;对所述预处理数据提取特征向量,得到特征向量;基于支持向量机,利用模糊隶属度矩阵对所述特性向量进行模糊化,得到模糊支持向量机;引入多个核函数并根据数据自学习方法确定所述多个核函数对应的权重;根据多个核函数对应的权重和所述模糊支持向量机构建所述目标分类器。本专利技术对于语言科技资源文本数据的分类结果较其他技术报到方法相比有更好的分类效果:可以做到平均召回率为93.6%,平均精确率为92.0%,准确率始终在86.5%以上;本专利技术不仅仅基于单核函数,大大提升了数据处理的效率;针对收集到的语言科技资源的数据安全性,本专利技术应用textrank算法对资源本文档来自技高网...

【技术保护点】

1.一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,还包括:

3.根据权利要求1所述的一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,所述目标语言科技资源文本数据包括:

4.根据权利要求1所述的一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,所述对所述目标语言科技资源文本数据进行预处理,得到预处理数据,包括:

5.根据权利要求1所述的一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,所述对所述预处理数据提取特征向量,得到特征向量,包括:

【技术特征摘要】

1.一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,包括:

2.根据权利要求1所述的一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,还包括:

3.根据权利要求1所述的一种基于多核函数模糊支持向量机的语言科技资源分类方法,其特征在于,所述目标语言科技资源文本数据包括:<...

【专利技术属性】
技术研发人员:张彦军
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1