一种面向知识管理的自定义知识分类方法技术

技术编号：10050651 阅读：181 留言：0更新日期：2014-05-15 21:22

本发明专利技术属于计算机应用技术领域，涉及应用于知识管理系统的一种自定义知识分类方法。本发明专利技术的目的是为了解决知识管理系统中，在缺乏标注文本集合的条件下，实现用户自定义分类管理知识的问题，提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题，通过用《同义词词林》扩展用户自定义关键词，利用Wu-Manber多模式匹配算法来快速匹配关键词，根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件，且速度快的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种面向知识管理的自定义知识分类方法，属于计算机应用

技术介绍
随着企业规模的不断扩大，企业内部的历史记录不断积累，业务流程日益复杂化，知识管理系统软件应运而生。知识管理的实质是对知识进行管理，通过对知识分类、检索、智能推送等手段已达到企业内部知识在运动中不断增值的目的。其中，知识的分类是知识管理系统中的重要组成模块，通过分类可以高效地管理和检索知识，便于相关知识的寻找，提高知识的利用价值。为了满足知识多维度展示的要求，我们提出了自定义知识分类。有价值的知识主要来自网络和企业内部的历史积累，通常以文本格式存储在数据库中，因此知识分类就转化成了文本分类。空间向量模型（SVM）是当前比较流行的分类方法，理论基础是通过将文本转换成空间向量，向量的分类结果，就是文本的分类结果。空间向量分类过程包括预处理、特征提取、分类器训练、分类器评测。此类方法的必要前提条件是具备大量标注文本集，集合中的文本都带有经过专家人工标注生成的分类标签。生成分类器时，标注集合被分成两部分，一部分用于分类器训练，另一部分用于分类器评测。此类方法的优点是处理速度快，分类精度高，缺点是类别固定，需要大量的标注文本，以及分类器训练复杂。还有很多类似SVM的分类器例如感知机、贝叶斯、神经网络等分类方法都有依赖标大量注语料、参数学习和动态更新不及时等缺陷，因此，此类方法不适合知识管理系统中缺乏训练集和自定义分类的要求。词匹配法是最早被提出的分类算法，这种方法根据文档中是否出现了某些固定的词来判断文档是否属于某个类别。这种方法的缺...
一种面向知识管理的自定义知识分类方法

【技术保护点】
一种面向知识管理的自定义知识分类方法，其特征在于：步骤一、对知识管理系统中相关定义进行说明，具体如下：定义1：知识管理系统中每个具体分类称为子类，记为c；定义2：用户为每个子类制定的专属一系列词组称为子类关键词，记为keys，单个词记为key；关键词集和记为KEYS；定义3：通过《同义词词林》对子类关键词keyi(i＝0,1,2…n)进行同义词扩展，得到keyi(i＝0,1,2…n)的同义词集合E{keyi}(i＝0,1,2…n)，所有子类关键词E{keyi}(i＝0,1,2…n)的合并称为子类扩展关键词，记为E(keys)。其中，i表示关键的下标，n表示子类中关键词的个数；定义4：若干个包含关键词的子类组成一套完整的分类标准，称为一个类组，记为C；要求文档集合中的所有文档按不同类组进行分类，因此在一个类组中文档集合中每个文档只能属于至多一个子类，但是可以属于其他类组中的子类；定义5：在给定文档集合D{d1,d2…di…dm}，其中，i代表文档下标，m代表文档集合总数量；步骤二、用户自定义一个类组C{c1,c2…ci…cn}，其中，i表示子类的下标，n表示类组包含的子类数；步骤三、为每...

【技术特征摘要】
1.一种面向知识管理的自定义知识分类方法，其特征在于：
步骤一、对知识管理系统中相关定义进行说明，具体如下：
定义1：知识管理系统中每个具体分类称为子类，记为c；
定义2：用户为每个子类制定的专属一系列词组称为子...

【专利技术属性】
技术研发人员：黄河燕，史树敏，陈振钊，冯冲，李侃，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人