【技术实现步骤摘要】
本专利技术涉及智能信息处理
,尤指一种中文比较句分类器模型生成、中文比较句自动识别方法及装置。
技术介绍
随着互联网的迅速发展,中文信息也呈现出爆炸性的增长。其中,许多信息涉及到 多种事物的比较,例如同类商品的比较推荐等。自动识别这些比较信息具有很大的实用价 值。通过自动检测文章中的比较句,为准确地提取出比较的实体及各实体之间的关系提供 了前提。 传统汉语语言学研究领域对比较句的研究起步较早。关于比较句的定义,马建忠 提出同一静字,以所肖者浅深不能一律,而律其不一,所谓比也(《马氏文通》,商务印书 馆)。吕叔湘认为比较句是表示事之间异同或高下比较关系的句子(《中国文法要略》,商 务印书馆)。车竞提出比较句是指位于中含有比较词语或比较格式的句子,并给出其基本结 构形式'1+比较词+Y+W(现代汉语比较句论略,湖北师范学院学报,25巻第3期)。但 这些研究限定在语言学领域,需要人工判断一个句子是否是比较句,并没有提供可用计算 机自动检测的方法。 文本自动分类是利用计算机系统对文本集按照一定的分类体系或标准进行自动 类别标记的一类技术,主要可分为基于知识的方法和基于距离的方法。基于知识的方法按 照分类专家的经验知识,构建规则库作为分类器进行分类。基于距离的方法按照文本之间 的相似程度进行划分,常用的包括朴素贝叶斯、支持向量机、神经网络和k近邻法等。传统 的文本分类器把文本表示为词的集合,不考虑词之间的位置和依赖关系,在应用到将句子 分为比较和非比较的问题上,效果不佳。因此,需要有一种更有效的识别汉语比较句 的方法。
技术实现思路
本专利技术实施例提供一种 ...
【技术保护点】
一种中文比较句分类器模型生成方法,其特征在于,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。
【技术特征摘要】
一种中文比较句分类器模型生成方法,其特征在于,包括将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。2. 如权利要求1所述的方法,其特征在于,所述将数据集各句子中每一个包含设定的 比较关键词的分句转化成一个序列,并为所述序列建立其对应分句所属句子相同的类别标 记,具体包括依次从数据集中读入已标注类别的句子;使用自动分词和词性标注方法,将读入的句子切分为词,并为切分出的每一个词添加 词性标识;确定出所述读入的句子包含的一个或多个分句;将每个包含所述比较关键词的分句转化为一个序列,并为所述序列建立其对应分句所 属句子相同的类别标记。3. 如权利要求2所述的方法,其特征在于,所述确定出所述读入的句子包含的一个或 多个分句,具体包括根据分句标识确定出所述读入的句子包含的一个或多个分句;所述分句标识包括逗 号、冒号和分号。4. 如权利要求3所述的方法,其特征在于,所述将每个包含所述比较关键词的分句转 化为一个序列,具体包括从分句中按顺序取词,判断取出的词是否是关键词库中存储的所述比较关键词; 若是,则确定该词为关键词,保留该关键词及其词性标识,将所述关键词及其词性标识合为一个组合项;若否,则确定该词为非关键词,只保留该非关键词的词性标识,单独作为一项;将所述组合项和非关键词的词性标识项按照对应词在所述分句中的顺序组成一个序列。5. 如权利要求1所述的方法,其特征在于,所述用每一个所述序列逐一匹配所述比较 模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对 应的一组特征向量,具体包括从所述序列集中获取一个序列;将获取的序列与比较模式集中的每一个比较模式进行匹配,根据匹配结果,得到所述 获取的序列对应的维数等于所述比较模式总数量的特征向量;将所述获取的序列的类别标记赋予所述特征向量,并输出所述特征向量; 从所述序列集中获取下一个序列进行处理,直至处理完所述序列集中所有的序列,得到一组特征向量。6. 如权利要求5所述的方法,其特征在于,所述将获取的序列与比较模式集中的每一 个比较模式进行匹配,根据匹配结果,得到所述获取的序列对应的维数等于所述比较模式总数量的特征向量,具体包括从所述比较模式集中获取一个比较模式,判断该比较模式是否是所述获取的序列的子 序列,若是,则确定所述特征向量中与该比较模式对应的元素的值为1 ;若是,则确定所述 特征向量中与该比较模式对应的元素的值为0 ;直至匹配完所述比较模式集中所有的比较模式,得到一个维数等于所述比较模式总数 量的特征向量。7. 如权利要求1-6任一所述的方法,其特征在于,所述根据所述特征向量及与其对应 的所述序列的类别标记,生成分类器模型,具体包括使用支持向量机SVM分类器SVMlight处理所述特征向量及与其对应的所述序列的类别 标记,生成包括一个与所述特征向量维数相同的实数向量和一个实数的线性核函数SVM分 类器模型;和/或使用C4. 5工具处理所述特征向量及与其对应的所述序列的类别标记,生成基于C4. 5 学习算法的决策树分类器模型;所述决策树包括根节点、若干内部节点和若干叶节点,所述 根节点和内部节点分别表示特征向量的一个元素,从所述根节点或内部节点延伸出的边表 示对应元素的取值,每个所述叶节点上标记有从根节点到达该叶节点的路径所表征的特征 向量的类别标记。8. —种中文比较句分类器模型生成装置,其特征在于,包括第一转化模块、模式挖掘 模块、第一匹配模块和模型生成模块;所述第一转化模块,用于将数据集各句子中每一个包含设定的比较关键词的分句转化 成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按 照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性 标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;所述模式挖掘模块,用于采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由 所述比较模式组成比较模式集;所述第一匹配模块,用于用每一个所述序列逐一匹配所述比较模式集中的各比较模 式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;所述模型生成模块,用于根据所述特征向量及与其对应的所述序列的类别标记,生成 分类器模型。9. 如权利要求8所述的装置,其特征在于,所述第一转化模块,包括读取单元、分词及标注单元、确定单元和转化单元;所述读取单元,用于依次从数据集中读入已标注类别的句子;所述分词及标注单元,用于使用自动分词和词性标注方法,将读入的句子切分为词,并为切分出的每一个词添加词性标识;所述确定单元,用于确定出所述读入的句子包含的一个或多个分句; 转化单元,用于将每个包含所述比较关键词的分句,转化为一个包括按照对应词在所述分句中的顺序排列的关键词及其词性标识的组合项和非关键词的词性标识项的一个序列,并为所述序列建立其对应分句所属句子相同的类别标记。10. 如权利要求9所述的装置,其特征在于,所述第一匹配模块,包括获取单元、匹配 单元和输出单元所述获取单元,用于从所述序列集中获取序列;所述匹配单元,用于将获取的序列与比较模式集中的每一个比较模式进行匹配,根据 匹配结果,得到所述获取的序列对应的维数等于所述比较模式总数量的特征向量;所述输出单元,用于将所述获取的序列的类别标记赋予所述特征向量,并输出所述特 征向量。11. 如权利要求8-10任一所述的装置,其特征在于,所述模型生成模块,具体包括第 一模型生成单元和/或第二模型生成单元;所述第一模型生成单元,用于使用支...
【专利技术属性】
技术研发人员:黄小江,万小军,杨建武,肖建国,
申请(专利权)人:北京大学,北大方正集团有限公司,北京方正电子政务信息科技有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。