一种分类数据库的构建方法以及图书分类的方法技术

技术编号:17597218 阅读:51 留言:0更新日期:2018-03-31 10:21
本发明专利技术公开了一种图书分类的方法,包括以下步骤:获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;分词步骤:对待分类图书的图书内容信息进行分词处理以得分词词组;分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。本发明专利技术还提供了一种分类数据库的构建方法。本发明专利技术的图书分类的方法通过采集待分类图书中的特征词组,并将该特征词组与分类数据库中的内容进行比对,以确定待分类图书的类别,其解决了编制繁复,耗时的人工分类缺陷,提高了分类效率和准确率。

A method of constructing a classified database and the method of book classification

【技术实现步骤摘要】
一种分类数据库的构建方法以及图书分类的方法
本专利技术涉及一种图书分类
,尤其涉及一种分类数据库的构建方法以及图书分类的方法。
技术介绍
目前,图书分类工作通常是人手工进行,但是由于图书分类的复杂性、多样性、模糊性等原因,使图书分类工作更加困难,准确性也不能得到绝对保证,仅仅提高工作人员的素质是根本不够的。目前市面上的图书分类技术标准都基于中图法分类标准,中图法诞生于上世纪6~70年代,当时特殊的环境造成了分类标准时代的局限性,同时中图法是中国古代主流图书分类法的延伸,不符合当前知识文化发展的需要;中图法仿照美国国会图书分类的办法用22个大写字母作为大类代号,其中有的“附属学科”又用TH、TN等双字母标示。为了标榜其国产化,编制说明是用汉语拼音字母表示,不用W,以免与U认读混淆。然而实际运用中都以英语字母认读。有序性原则模糊,没有提示性和规律性。在中图法中有许多既可入此类又可入彼类的图书,或“宜入此”的模棱两可的现象。当我们输入某学科关键词检索,竟会出现三种或四、五种分类。标示与学科门类之间没有关联,没有提示性,分类号、索取号、重叠使用,标识繁琐,检索芜杂,种次号定义标准模糊,无法实现检索、目录、索引一体化和开放式自助分类编目,使中图法丧失了大众化的功能。随着科技的迅速发展,使用新的计算机技术来解决图书分类的问题是十分有必要的。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种分类数据库的构建方法,其能解决分类数据库构建的技术问题。本专利技术的目的之二在于提供一种计算机可读存储介质,其能解决分类数据库构建的技术问题。本专利技术的目的之三在于提供一种图书分类的方法,其能解决图书分类确定的问题。本专利技术的目的之四在于提供一种电子设备,其能解决图书分类确定的问题。本专利技术的目的之五在于提供一种计算机可读存储介质,其能解决图书分类确定的问题。本专利技术的目的之一采用如下技术方案实现:一种分类数据库的构建方法,包括以下步骤:获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;分词步骤:对训练图书的图书内容信息进行分词处理以得分词词组;数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。进一步地,所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库。本专利技术的目的之二采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术目的之一中任意一项所述的方法。本专利技术的目的之三采用如下技术方案实现:一种图书分类的方法,包括以下步骤:获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;分词步骤:对待分类图书的图书内容信息进行分词处理以获得分词词组;分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。进一步地,在分类确定步骤中通过朴素贝叶斯算法以获得待分类图书的分类条目。进一步地,在分词步骤具体包括以下子步骤:分词处理步骤:对图书信息采用开源系统ICTCLAS进行分词处理;删词步骤:根据通用词词库与停用词词库除去分词后的通用词与停用词以得分词词组。进一步地,所述关键词为分词词组中的概率超过预设值的分词。进一步地,所述图书信息还包括作者信息,所述分词确定步骤具体包括以下子步骤:判断步骤:判断是否获取到与作者信息对应的分类条目,如果是,则执行相似性判断步骤,如果否,则执行计算步骤:相似性判断步骤:确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值,如果大于预设值,则该分类条目即为所述待分类图书的分类,如果小于预设值,则执行计算步骤;计算步骤:通过朴素贝叶斯算法以得待分类图书的分类条目。本专利技术的目的之四采用如下技术方案实现:一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术目的之四中任意一项所述的图书分类的方法。本专利技术的目的之五采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术目的之四中任意一项所述图书分类的方法。相比现有技术,本专利技术的有益效果在于:本专利技术的图书分类的方法通过采集待分类图书中的特征词组,并将该特征词组与分类数据库中的内容进行比对,以确定待分类图书的类别,其解决了编制繁复,耗时的人工分类缺陷,提高了分类效率和准确率。附图说明图1为实施例一的分类数据库的构建方法的流程图;图2为实施例二的图书分类的方法的流程图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。实施例一:本实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所描述的分类数据库的构建方法:S101:获取训练图书的图书信息,所述图书信息包括图书内容信息;所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库;上述作者信息是为了在后期进行分类确定的时候,减少计算量而设置的;训练图书为建立分类数据库而选取的图书样本,在选择训练样本的时候,可以选择经过专家确定的分类的图书作为训练样本,将该训练样本作为分类参考的标准,作为后面新获取到的图书进行分类的依据;S102:对训练图书的图书内容信息进行分词处理以获得分词词组;通过分词将图书内容分成不同的词以此来作为后期判断基准;在分词过程中自动滤除一些常用词汇以及停用词;S103:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。上述步骤主要目的是为了形成分类数据库,这样的数据库不是当前采用的国际分类标准,而是根据需求,自己定制的,目前主要是针对于中小学生来进行设置的。关键词组是不断更新的,由于时代在发展,图书的内容也在变化,故而用词也会出现一些新的标准,在获取书籍的过程中,如果有获取到使用频次比较大的词语,则也会将这些内容,增加至关键词库中;从而丰富其内容,提高匹配度。本专利技术通过获取训练图书的信息,并与根据一定的原则确定的图书分类条目匹配,构建了有利于利用计算机技术进行精确快速分类的数据库。本专利技术确定图书分类条目时,通过精简分类体系,使普通大众容易查找与记忆;能更精准定位图书分类,更合理;运用互联网大数据技术,使图书分类符合当前知识文化时代发展的需要;图书分类条目总共分为二级,其中一级7类(科普、外语、教育、文学、人文综合、通识、艺术创意);二级29小类。上述分类主要有以下几个设计原则:1、与国际教育接轨该图书分类法借用“人文”和“通识”概念,结合中小学阶段学生身心发展特点,将语言文字、法律、军事、社会、历史、地理总论等内容的图书整合成“百科综合”这一大类下二级类目“人文”,而将哲学类、思想类一般性知识相关图书以及中小学生生命教育、生命安全教育、生活自理与常识等内容图书,整合成“通识”这一大类,以期孩子在中小本文档来自技高网...
一种分类数据库的构建方法以及图书分类的方法

【技术保护点】
一种分类数据库的构建方法,其特征在于,包括以下步骤:获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;分词步骤:对训练图书的图书内容信息进行分词处理以获得分词词组;数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。

【技术特征摘要】
1.一种分类数据库的构建方法,其特征在于,包括以下步骤:获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;分词步骤:对训练图书的图书内容信息进行分词处理以获得分词词组;数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。2.如权利要求1所述的分类数据库的构建方法,其特征在于,所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库。3.如权利要求1所述的分类数据库的构建方法,其特征在于,所述分类条目包括科普、外语、教育、文学、人文综合、通识和艺术创意。4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-3任意一项所述的方法。5.一种图书分类的方法,其特征在于,包括以下步骤:获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;分词步骤:对待分类图书的图书内容信息进行分词处理以获得分词词组;分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。6...

【专利技术属性】
技术研发人员:李海龙禤程张立
申请(专利权)人:广州星耀悦教育科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1