一种基于隐马尔科夫模型的智能分词方法技术

技术编号：12981729 阅读：166 留言：0更新日期：2016-03-04 02:31

本发明专利技术涉及一种基于隐马尔科夫模型的智能分词方法，该方法包括以下步骤：⑴建立隐马尔可夫模型参数；⑵确定文章中的状态集Θ；⑶在确定了N，M，L之后，将简记为；⑷运用计算机语言，先采用机械分词法对大量的文章进行分词；然后用计算机对其状态进行标注，进而形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵；⑸对形成的初始A矩阵和B1矩阵及B2矩阵采用BW算法进行文章训练，并按BW算法重估公式进行重估，得到新的π矩阵、A矩阵和B1、B2矩阵；⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词，根据标点符号把文章分为多个句子，对每一个句子进行中文分词，即得分词后的文章。本发明专利技术可对大量中文文本进行准确而高效分词。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于隐马尔科夫模型的智能分词方法
本专利技术涉及一种中文分词方法，尤其涉及一种基于隐马尔科夫模型的智能分词方法。
技术介绍
随着互联网技术的发展，人们对计算机处理文本的要求越来越高。其中，软件需要具有对文章的输入、显示、编辑、输出等功能，而实现这些功能的基础则是对文本中词语的辨识；但是与英语不同，中文的词语没有天然的分界，所以要想提高中文软件对文本的处理能力，就必须做好中文分词。目前，用来进行中文分词的主要方法有机械分词法、理解法和统计法。机械分词法是根据词典中已有的字符串进行分词，但是其分词需要大量的数据，而且对于新出现的词语无能为力；理解法是通过计算机对文章句意、语法的分析来进行分词，缺点在于由于汉语的复杂性，其算法的实现上有极大的困难；统计法，是通过大量的训练对字与字之间概率进行统计，从而实现中文分词。隐马尔可夫模型（HiddenMarkovModel，HMM）作为一种统计分析模型，已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。《基于隐马尔科夫模型的中文分词研究》（魏晓宁，电脑知识与技术(学术交流)，2007年21期）采用一种基于隐马尔科夫模型(HMM)的算法，通过CHMM(层叠形马尔科夫模型)进行分词，再做分层，既增加了分词的准确性，又保证了分词的效率。但隐马尔可夫模型缺乏对于语言环境的分析，对于频率较低但不常用或较多出现但不成词的情况处理也容易不准确。AsaharaM,GohCL,WangX,etal.CombiningsegmenterandchunkerforChinesewordsegmentation[C]//Proce...
一种基于隐马尔科夫模型的智能分词方法

【技术保护点】
一种基于隐马尔科夫模型的智能分词方法，包括以下步骤：⑴建立隐马尔可夫模型参数，其中N为模型中马尔科夫链的状态数目；记n个状态为θ1，…，θn，记t时刻马尔科夫链所处的状态为，且（，…，）；M为每个状态对应的可能的单个汉字的观察值数目；记m个观察值为V1，…，VM，记t时刻观察到的观察值，其中，（V1，…，VM）；L为每个状态对应的可能的多个汉字的观察值数目；记l个扩展观察值，……，，记t时刻观察到的观察值，其中（，……，）；π表示序列开始时选取某个状态的概率，π=（π1，…，πn），式中，1 ≤ і ≤ N；A表示在当前状态下选取下一个状态的转移概率矩阵，（）N×N，式中，1 ≤≤ N；B1表示第j个状态中观察值k出现的概率矩阵，N×M，式中,1 ≤≤ N，1 ≤≤ M；B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵，即扩展型观察值概率矩阵， N×L，式中，1 ≤≤ N，1 ≤≤ L；⑵确定文章中的状态集Θ：结合汉语的语言规律，将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态；⑶在确定了N，M，L之后，将简记为；⑷运用计算机语言，先采用机械分词法对大量的文章进行分词...

【技术特征摘要】
1.一种基于隐马尔科夫模型的智能分词方法，包括以下步骤：⑴建立隐马尔可夫模型参数，其中N为模型中马尔科夫链的状态数目；记N个状态为θ1，…，θN，记t时刻马尔科夫链所处的状态为，且（，…，）；M为每个状态对应的可能的单个汉字的观察值数目；记M个观察值为V1，…，VM，记t时刻观察到的观察值，其中，（V1，…，VM）；L为每个状态对应的可能的多个汉字的观察值数目；记L个扩展观察值，……，，记t时刻观察到的观察值，其中（，……，）；π表示序列开始时选取某个状态的概率，π=（π1，…，πN），式中，1≤і≤N；A表示在当前状态下选取下一个状态的转移概率矩阵，（）N×N，式中，1≤≤N；B1表示第j个状态对应M中第k个观察值出现的概率矩阵，N×M，式中,1≤j≤N，1≤k≤M；B2表示第j个状态对应L中第k个元素的观察值出现的概率矩阵，即扩展型观察值概率矩阵，N×L，式中，1≤j≤N，1≤k≤L；⑵确定文章中的状态集Θ：结合汉语的语言规律，将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态；⑶在确定了N，M，L之后，将简记为；⑷运用计算机语言，先采用机械分词法对大量的文章进行分词；然后用计算机对其状态进行标注，进而统计每一个字在该状态上出现的概率，形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵；⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练，文章观察值序列称为O，扩展型观察值序列称为...

【专利技术属性】
技术研发人员：邓剑波，马润宇，刘毓智，
申请(专利权)人：甘肃智呈网络科技有限公司，
类型：发明
国别省市：甘肃;62

全部详细技术资料下载我是这个专利的主人