一种面向知识管理的自定义知识分类方法技术

技术编号:10050651 阅读:175 留言:0更新日期:2014-05-15 21:22
本发明专利技术属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明专利技术的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。

【技术实现步骤摘要】

本专利技术涉及一种面向知识管理的自定义知识分类方法,属于计算机应用
 
技术介绍
随着企业规模的不断扩大,企业内部的历史记录不断积累,业务流程日益复杂化,知识管理系统软件应运而生。知识管理的实质是对知识进行管理,通过对知识分类、检索、智能推送等手段已达到企业内部知识在运动中不断增值的目的。其中,知识的分类是知识管理系统中的重要组成模块,通过分类可以高效地管理和检索知识,便于相关知识的寻找,提高知识的利用价值。为了满足知识多维度展示的要求,我们提出了自定义知识分类。有价值的知识主要来自网络和企业内部的历史积累,通常以文本格式存储在数据库中,因此知识分类就转化成了文本分类。 空间向量模型(SVM)是当前比较流行的分类方法,理论基础是通过将文本转换成空间向量,向量的分类结果,就是文本的分类结果。空间向量分类过程包括预处理、特征提取、分类器训练、分类器评测。此类方法的必要前提条件是具备大量标注文本集,集合中的文本都带有经过专家人工标注生成的分类标签。生成分类器时,标注集合被分成两部分,一部分用于分类器训练,另一部分用于分类器评测。此类方法的优点是处理速度快,分类精度高,缺点是类别固定,需要大量的标注文本,以及分类器训练复杂。还有很多类似SVM的分类器例如感知机、贝叶斯、神经网络等分类方法都有依赖标大量注语料、参数学习和动态更新不及时等缺陷,因此,此类方法不适合知识管理系统中缺乏训练集和自定义分类的要求。 词匹配法是最早被提出的分类算法,这种方法根据文档中是否出现了某些固定的词来判断文档是否属于某个类别。这种方法的缺点是通过简单机械的匹配会影响分类效果,优点是不需要标注集,类别中关键词的可以由用户自定义添加,比较适合知识管理系统中缺乏标注集、自定义的条件。针对本系统特殊 应用需求,我们采用了改进的次匹配方法,通过《同义词词林》扩展关键词同义词,以改善分类效果。 
技术实现思路
本专利技术的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。 为实现上述目的,本专利技术所采用的技术方案如下: 步骤一、对知识管理系统中相关定义进行说明,具体如下: 定义1:知识管理系统中每个具体分类称为子类,记为c; 定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS; 定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi本文档来自技高网
...
一种面向知识管理的自定义知识分类方法

【技术保护点】
一种面向知识管理的自定义知识分类方法,其特征在于:步骤一、对知识管理系统中相关定义进行说明,具体如下:定义1:知识管理系统中每个具体分类称为子类,记为c;定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS;定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi}(i=0,1,2…n),所有子类关键词E{keyi}(i=0,1,2…n)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键的下标,n表示子类中关键词的个数;定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类;定义5:在给定文档集合D{d1,d2…di…dm},其中,i代表文档下标,m代表文档集合总数量;步骤二、用户自定义一个类组C{c1,c2…ci…cn},其中,i表示子类的下标,n表示类组包含的子类数;步骤三、为每个子类ci添加自定义的子类关键词keysi;步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi};步骤五、把类组C所有子类ci的扩展子类关键词E{keysi}合并为关键词集合其中代表关键词集合中下标为h的关键词项,Kh代表关键词,其后面()中的c表示关键词Kh包含在子类c中,sh代表包含关键词Kh的子类数;t代表关键词集合元素数;步骤六、应用Wu‑Manber多模式匹配算法统计一组关键词keys在文档d中出现次数;首先要对模式串的集合进行预处理,预处理阶段将建立三个表格:SHIFT表,HASH表,SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离,HASH表用来存储匹配窗口内尾字符散列值相同的模式串,PREFIX表用来存储匹配窗口内首字符散列值相同的模式串;步骤七、把关键词集合KEYS看做多模式匹配中的模式串,把文档di看做多模式匹配中的文本串,利用Wu‑Manber多模式匹配算法进行关键词匹配,记录匹配成功的关键词来自的子类ci和匹配的位置,每个文档包括标题Title、摘要Abstract和正文Text,统计每个扩展子类关键词E{keysi}在文档di各个位置中出现的次数,分别记为counti{Title}、counti{Abstract}和counti{Text};步骤八、确定文档的类别:假设在一个文档d中关键词命中率最高的子类为文档最终所属的类别。c^=argmax1<i<n{Counti}]]>其中,代表最佳分类标号,i代表自定义子类的下标,Counti表示子类ci在文档d中的命中率;最终子类ci在一个文档d中的命中率定义如下式:Counti=α·counti{Title}+β·counti{Abstract}+γ·counti{Text}其中α,β,γ(α>β>λ)分别为关键词出现在文档d标题、摘要和正文的权重,counti{Title}、counti{Abstract}、counti{Text}分别代表文档d标题、摘要和正文出现关键词的个数。...

【技术特征摘要】
1.一种面向知识管理的自定义知识分类方法,其特征在于:
步骤一、对知识管理系统中相关定义进行说明,具体如下:
定义1:知识管理系统中每个具体分类称为子类,记为c;
定义2:用户为每个子类制定的专属一系列词组称为子...

【专利技术属性】
技术研发人员:黄河燕史树敏陈振钊冯冲李侃
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1