本发明专利技术公开了一种文献分类的方法、系统及装置,包括,S1、获取文献;S2、确定文献标题唯一类;S3、对文献摘要进行分类;S4、对文献进行后处理得到文献类。本发明专利技术可以实现文献分类。本发明专利技术可以实现文献分类。本发明专利技术可以实现文献分类。
【技术实现步骤摘要】
文献分类的方法、系统及装置
[0001]本专利技术涉及基于石化领域的文献混合分类领域,尤其是涉及一种文献分类的方法、系统及装置。
技术介绍
[0002]分类是自然语言处理的基本任务,一个200万语料在hs模式下计算fasttext模型需要2个小时,消耗264G的计算资源,这就无法满足工程上对实时性要求。当工程上发现问题之后,都要求现场纠正现场解决,因此无法通过重新训练模型实现响应速度的要求。
技术实现思路
[0003]本专利技术的目的在于提供一种基于石化领域的文献分类的方法、系统及装置,旨在解决石化领域的文献混合分类。
[0004]本专利技术提供一种石化领域的文献混合分类方法,包括:
[0005]S1、建立用于将句子转换为数据的机器学习模型;
[0006]S2、构建分类字典模型;
[0007]S3、获取待分类文献;
[0008]S4、将待分类文献输入机器学习模型得到数据;
[0009]S5、将数据输入分类字典模型进行分类。
[0010]本专利技术还提供一种基于石化领域的文献混合分类系统,包括:
[0011]机器学习模块:建立用于将句子转换为数据的机器学习模型;
[0012]构建模块:用于构建分类字典模型;
[0013]获取模块:用于获取待分类文献;
[0014]输入模块:将待分类文献输入机器学习模型得到数据;
[0015]分类模块:用于将数据输入分类字典模型进行分类。
[0016]本专利技术实施例还提供一种基于石化领域的文献混合分类装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。
[0017]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤。
[0018]采用本专利技术实施例,可以实现石化领域的文献混合分类,样本量大,准确性高。
[0019]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0020]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术实施例的文献分类的方法的流程图;
[0022]图2是本专利技术实施例的文献分类的方法的原理示意图;
[0023]图3是本专利技术实施例的文献分类的方法的具体流程图;
[0024]图4是本专利技术实施例的文献分类的方法的原始语料示意图;
[0025]图5是本专利技术实施例的文献分类的方法的全部节点分类名称示意图;
[0026]图6是本专利技术实施例的文献分类的方法的标注语料示意图;
[0027]图7是本专利技术实施例的文献分类的方法的分类字典示意图;
[0028]图8是本专利技术实施例的文献分类的方法的知识体系示意图;
[0029]图9是本专利技术实施例的文献分类的方法的输出结果示意图;
[0030]图10是本专利技术实施例的文献分类的系统示意图;
[0031]图11是本专利技术实施例的文献分类的装置示意图。
具体实施方式
[0032]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]方法实施例
[0034]根据本专利技术实施例,提供了一种文献分类的方法,图1是本专利技术实施例的文献分类的方法的流程图,如图1所示,具体包括:
[0035]S1、获取文献;
[0036]S1具体包括:获取文献,将文献转换成数据;
[0037]S2、确定文献标题唯一类;
[0038]S3、对文献摘要进行分类;
[0039]S3具体包括:将摘要切分为多句,确定摘要每句的唯一类,取类别次数最多的为摘要的唯一类,如果类别次数都一样,则取所有词串最长的那个类。
[0040]S4、对文献进行后处理得到文献类。
[0041]S4具体包括:获取标题类和摘要类在知识体系中的位置得到文献类。
[0042]具体实施方法如下:
[0043]图2是本专利技术实施例的文献分类的方法的原理示意图。
[0044]基于石化领域fasttext模型和ngram模型的分类方法由数据层1、模型层2和应用层3组成。数据层的功能是存储语料、字典和模型,为模型层提供数据支撑;模型层的任务就是建立fasttext模型、构建字典并应用字典进行分类;应用层3读入新的文献并展示分类结果。
[0045]所述数据层由领域语料1
‑
1、Fasttext模型1
‑
2、分类字典1
‑
3、知识体系1
‑
4组成以及分类语料1
‑
5组成。所述领域语料1
‑
1,将石化领域350万相关文献、报告、咨询、专利等文
献,根据标点符号进行句子拆分为3100万句子,构成石化领域的基本背景语料;所述Fasttext模型1
‑
2就是一个6.5G的bin文件,它是将3100万句子通过逻辑核数32、内存500G的服务器运算8.6小时获得的,具体的词表大小为130万词、词向量维度为300维,训练词向量文件为3G;所述分类字典1
‑
3所展示的是一个1124个分类、每个分类500篇样本的分类词的扩展字典,字典总数为306万条,包括分类词扩展字典、分类标题6gram相似词扩展和3
‑
11gram特征字符串,其中的ngram字符串的可读性不是太好,这是正常现象,因为ngram是给计算机阅读的不是给人阅读的;所述知识体系1
‑
4,含有1124个分类叶子节点的石化业务知识分类体系是一个按照业务域、各级业务以及业务主题进行划分的树形结构,代表了石化领域对于业务的共性认识,是最重要的业务知识;所述分类语料1
‑
5是1151个全节点类总共23万语料的记录形式,在分类语料中,由于fasttext模型本身是基于上下文无关语法的,所以在分类语料构建中只采用标题而不用正文,因为标题完全代表了文献本身,而正文中的每个句子并不具有代表性。
[0046]所述模型层2由训练fasttext模型2
‑
1、分类词扩展2
‑
2、标题6gram截短2
‑
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文献分类的方法,其特征在于,包括,S1、获取文献;S2、确定文献标题唯一类;S3、对文献摘要进行分类;S4、对文献进行后处理得到文献类。2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:获取文献,将文献转换成数据。3.根据权利要求2所述的方法,其特征在于,所述S3具体包括:将摘要切分为多句,确定摘要每句的唯一类,取类别次数最多的为摘要的唯一类,如果类别次数都一样,则取所有词串最长的那个类。4.根据权利要求3所述的方法,其特征在于,所述S4具体包括:获取标题类和摘要类在知识体系中的位置得到文献类。5.一种文献分类的系统,其特征在于,包括,获取模块:用于获取文献;确定模块:用于确定文献标题唯一类;分类模块:用于对文献摘要进行分类;处理模块:用于对文献进行后处理得到文献类。6.根据权利要求5所述的系统,其...
【专利技术属性】
技术研发人员:谭培波,付天宇,李建康,刘弦弦,
申请(专利权)人:北京智通云联科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。