本发明专利技术涉及一种基于隐马尔科夫模型的智能分词方法,该方法包括以下步骤:⑴建立隐马尔可夫模型参数;⑵确定文章中的状态集Θ;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的初始A矩阵和B1矩阵及B2矩阵采用BW算法进行文章训练,并按BW算法重估公式进行重估,得到新的π矩阵、A矩阵和B1、B2矩阵;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。本发明专利技术可对大量中文文本进行准确而高效分词。
【技术实现步骤摘要】
一种基于隐马尔科夫模型的智能分词方法
本专利技术涉及一种中文分词方法,尤其涉及一种基于隐马尔科夫模型的智能分词方法。
技术介绍
随着互联网技术的发展,人们对计算机处理文本的要求越来越高。其中,软件需要具有对文章的输入、显示、编辑、输出等功能,而实现这些功能的基础则是对文本中词语的辨识;但是与英语不同,中文的词语没有天然的分界,所以要想提高中文软件对文本的处理能力,就必须做好中文分词。目前,用来进行中文分词的主要方法有机械分词法、理解法和统计法。机械分词法是根据词典中已有的字符串进行分词,但是其分词需要大量的数据,而且对于新出现的词语无能为力;理解法是通过计算机对文章句意、语法的分析来进行分词,缺点在于由于汉语的复杂性,其算法的实现上有极大的困难;统计法,是通过大量的训练对字与字之间概率进行统计,从而实现中文分词。隐马尔可夫模型(HiddenMarkovModel,HMM)作为一种统计分析模型,已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。《基于隐马尔科夫模型的中文分词研究》(魏晓宁,电脑知识与技术(学术交流),2007年21期)采用一种基于隐马尔科夫模型(HMM)的算法,通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的准确性,又保证了分词的效率。但隐马尔可夫模型缺乏对于语言环境的分析,对于频率较低但不常用或较多出现但不成词的情况处理也容易不准确。AsaharaM,GohCL,WangX,etal.CombiningsegmenterandchunkerforChinesewordsegmentation[C]//ProceedingsofthesecondSIGHANworkshoponChineselanguageprocessing-Volume17.AssociationforComputationalLinguistics,2003:144-147.XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-48.这两篇文献介绍了一种基于字标注的隐马尔科夫中文分词模型,该模型继承了字标注模型的优点它能够平衡地看待词表词和未登录词的识别问题,但是缺乏对语言环境的分析。
技术实现思路
本专利技术所要解决的技术问题是提供一种对大量中文文本进行准确而高效分词的基于隐马尔科夫模型的智能分词方法。为解决上述问题,本专利技术所述的一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:⑴建立隐马尔可夫模型参数,其中N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为,且(,…,);M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值,……,,记t时刻观察到的观察值,其中(,……,);π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中,1≤і≤N;A表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1≤≤N;B1表示第j个状态中观察值k出现的概率矩阵,N×M,式中,1≤≤N,1≤≤M;B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵,N×L,式中,1≤≤N,1≤≤L;⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率,并对每个观察元素的观察值概率按BW算法重估公式进行重估,算出新的隐马尔可夫模型的参数及;并使收敛到一个最大值,从而得到新的π矩阵、A矩阵和B1、B2矩阵;其中:;;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。所述步骤⑸中BW算法是指:给定一个观察值序列O=o1,o2,…,ot,以及扩展EO=e1,e2,…,et,确定一个,使在条件下处于扩展观察序列EO的概率最大;定义观察值概率函数:;前向算法的公式为;初始化:对1≤i≤N,有;递推:对于1≤t≤t-1,1≤j≤N,有;终止:;后向算法的公式为;初始化:对1≤i≤N,有;递推:对t=t-1,t-2,…,1,且1≤i≤N,有;终止:;根据定义的前向和后向变量,BW算法有,1≤t≤t-1;定义为给定训练序列O和模型时,在t时刻处于i状态,t+1时刻处于j状态的概率,即;在时刻t处于i状态的概率为。所述步骤⑹中维特比算法是指定义为时刻t时沿一条路径q1,q2,…,qt,且qt=i,产生出e1,e2,…,et的最大概率,即有:;则求取最佳状态序列Q*的过程为初始化:对,有;;递推:对有,;,;终止:;;路径回溯,确定最佳状态序列t=T-1,T-2,…,1。本专利技术与现有技术相比具有以下优点:1、本专利技术先通过Baum-Welch算法(简称BW算法)对已有的观察值概率矩阵,和状态概率矩阵进行训练,得到新的观察值概率矩阵和状态概率矩阵,基于新的矩阵,再运用维特比算法对文章进行中文分词。与传统的隐马尔科夫模型不同,本专利技术采用了新型的观察值概率矩阵,即扩展型观察值概率矩阵;这种矩阵不仅涵盖了中文单字的本身的信息,而且涵盖了语境的信息,有效地减少了统计法中文分词的错误,大大提高了中文分词的正确率2、本专利技术可以对大量的中文文本进行准确而高效的分词,作为其他一系列文本处理技术的前提。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明。图1为本专利技术示例扩展后的一个观察状态示意图。图2为本专利技术示例A矩阵初值示意图。具体实施方式一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:⑴建立隐马尔可夫模型参数,其中N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为,且(,…,);M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值,……,,记t时刻观察到的观察值,其中(,……,);π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中,1≤і≤N;A表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1≤≤N;B1表示第j个状态中观察值k出现的概率矩阵,N×M,式中,1≤≤N,1≤≤M;B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵,N×L,式中,1≤≤N,1≤≤L。⑵确定文章中的状态集Θ:本文档来自技高网...
【技术保护点】
一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:⑴建立隐马尔可夫模型参数,其中N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为,且(,…,);M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值,……,,记t时刻观察到的观察值,其中(,……,);π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中,1 ≤ і ≤ N;A表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1 ≤≤ N;B1表示第j个状态中观察值k出现的概率矩阵,N×M,式中,1 ≤≤ N,1 ≤≤ M;B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵, N×L,式中,1 ≤≤ N,1 ≤≤ L;⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率,并对每个观察元素的观察值概率按BW算法重估公式进行重估,算出新的隐马尔可夫模型的参数及;并使收敛到一个最大值,从而得到新的π矩阵、A矩阵和B1、B2矩阵;其中:;;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。...
【技术特征摘要】
1.一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:⑴建立隐马尔可夫模型参数,其中N为模型中马尔科夫链的状态数目;记N个状态为θ1,…,θN,记t时刻马尔科夫链所处的状态为,且(,…,);M为每个状态对应的可能的单个汉字的观察值数目;记M个观察值为V1,…,VM,记t时刻观察到的观察值,其中,(V1,…,VM);L为每个状态对应的可能的多个汉字的观察值数目;记L个扩展观察值,……,,记t时刻观察到的观察值,其中(,……,);π表示序列开始时选取某个状态的概率,π=(π1,…,πN),式中,1≤і≤N;A表示在当前状态下选取下一个状态的转移概率矩阵,()N×N,式中,1≤≤N;B1表示第j个状态对应M中第k个观察值出现的概率矩阵,N×M,式中,1≤j≤N,1≤k≤M;B2表示第j个状态对应L中第k个元素的观察值出现的概率矩阵,即扩展型观察值概率矩阵,N×L,式中,1≤j≤N,1≤k≤L;⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为...
【专利技术属性】
技术研发人员:邓剑波,马润宇,刘毓智,
申请(专利权)人:甘肃智呈网络科技有限公司,
类型:发明
国别省市:甘肃;62
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。