本发明专利技术公开了一种分词方法和装置,装置包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N‑最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N‑最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。
【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种分词的方法及装置。
技术介绍
随着互联网的快速发展,信息服务变得越来越普遍。信息服务提供商提供信息服务时,通常会挖掘实体(现实世界中的客观事物称为实体,例如概念、事物或事件等)之间的关联关系,并根据实体之间的关联关系提供信息服务。例如,“南方航空”是“一带一路”的概念股票,二者是实体的实例并且之间存在联系,基于这种关联关系通过检索“一带一路”可以获取与其相关的概念股票。实体之间的关联关系通常是在文本分词基础之上通过计算共现等测度获得,因此分词性能的好坏直接影响后续处理及最终的关联结果。在现有技术中通常有基于词典的分词和基于统计模型的分词,如公开号为102982099A的专利文献,提供了一种个性化并行分词处理系统及其处理方法。基于词典的分词方法分词效率较高但准确性较差,而基于统计模型的分词方法可以自动学习词语切分的规则,在歧义切分效果上较好,但受限于训练语料分词结果在粒度和一致性上不够稳定,性能较差。基于N-最短路径的分词方法结合词典与统计模型在分词速度和准确度两方面都取得了较好效果,但受限词典与统计模型,对于词的切分常常过于细,例如“可穿戴设备”被切分为“可”、“穿戴”和“设备”,但在特定领域内常常需要将“可穿戴设备”作为一个整词来与其他实体建立关联。通常可采用领域词典的方式对初始分词结果中的词进行机械合并,但这种方法只能合并领域词典中包含的词,例如词典中只包含“广东旅游”、“北京旅游”则只能合并这两个词而不能合并“西藏旅游”,并且常由于不考虑上下文信息而导致错误的合并。N-最短路径以及其他基于词典和统计模型的分词方法对特定领域的词常常切分过细导致部分实体之间的关联无法建立,例如在金融领域,一些概念与股票的名词通常是由几个较短的单词组合而成,在切分过程中很容易被切分成多个较短的单词,这对这些特定领域内实体关联的建立非常不利。而采用领域词典的方式虽然能合并词典中包含的词,但常常导致错误的合且不具有泛化能力。
技术实现思路
针对现有技术存在的缺陷,本专利技术提出一种分词的方法和装置,在原始分词的基础上考虑上下文信息从而可使特定领域内的实体在分词结果中正确切分,并通过对领域词典中的词模式进行自动学习可识别出具有相同模式的词从而进行正确切分,例如词典中只包含“广东旅游”、“北京旅游”,对于“西藏旅游”也能正确切出来,从而提升实体之间的关联效果。本专利技术的技术方案是:首先使用条件随机场(简称CRF)训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N-最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N-最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。关于领域词典,就是特定领域的定制词典,就是具体应用领域中,需要在分词中完整切分的词,例如金融领域中的相关概念词如“一带一路”、股票全称以及简称等。具体地,一种分词方法,包括词标注模型训练和分词应用两个阶段,首先使用条件随机场(简称CRF)训练词标注模型,得到词标注模型后即可进入分词应用。所述词标注模型训练包括以下步骤:S1.采集语料库和准备语料库所属领域的领域词典随机选取一定时期内一
内的新闻语料,并选取该领域的领域词典;S2.对语料库进行分词并进行词性标注,得到分词列表;分词所采用的方法可以选N-最短路径分词方法、最短路径分词方法、正向最大匹配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或条件随机场模型分词方法;对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模型标注、最大熵模型标注或条件随机场模型标注。S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N-1个词组合,得到当前词的词组合列表;这里的分词列表是步骤S2步骤中经分词后得到。②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;④若当前词的最长词组合不存在,则将当前词标注为“O”;⑤将标注结果保存成CRF工具所要求的格式;S4.采用CRF工具对训练语料进行训练得到词标注模型;S5.输出词标注模型,完成模型训练;所述分词应用包括以下步骤:a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;b)基于初始分词列表构建特征表;特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三列;标注过程采用维特比解码算法;d)根据词标注结果进行词合并①初始化分词结果列表r;②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位置为j+1;③若否即T[i][3]不为“B”标注则直接将当前词加入到r;e)输出最终分词结果。本专利技术提供一种分词装置,包括用于模型训练阶段的分词&标注模块和CRF训练模块,以及用于分词应用阶段的初始分词模块、词标注模块和词合并模块;所述分词&标注模块对采集的语料库进行分词然后对分词结果进行前后组合并使用领域词典进行标注,得到用于CRF训练的标注训练集;CRF训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型,并将词标注模型以文件形式保存用于分词应用;所述初始分词模块对输入文本进行初始切分和词性标注,得到初始分词信息列表;词标注模块对初始分词信息列表构建特征表,然后加载词标注模型使用维特比算法对特征表进行标注,并将标注结果保存在特征表的最后一列;词合并模块对特征表的最后一列标注结果进行分析,对于符合{BI+本文档来自技高网...
【技术保护点】
分词的方法,其特征在于,首先使用条件随机场进行词标注模型训练,得到词标注模型后即可进入分词应用;所述词标注模型训练包括以下步骤:S1.采集语料库和准备语料库所属领域的领域词典;随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;S2.对语料库进行分词并进行词性标注,得到分词列表;S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N‑1个词组合,得到当前词的词组合列表;②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;④若当前词的最长词组合不存在,则将当前词标注为“O”;⑤将标注结果保存成CRF工具所要求的格式;S4.采用CRF工具对训练语料进行训练得到词标注模型;S5.输出词标注模型,完成模型训练;所述分词应用包括以下步骤:a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;b)基于初始分词列表构建特征表;特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三列;标注过程采用维特比解码算法;d)根据词标注结果进行词合并①初始化分词结果列表r;②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位置为j+1;③若否则直接将当前词加入到r;e)输出最终分词结果。...
【技术特征摘要】
1.分词的方法,其特征在于,首先使用条件随机场进行词标注模型训练,得到词标注模型后即可进入分词应用;
所述词标注模型训练包括以下步骤:
S1.采集语料库和准备语料库所属领域的领域词典;
随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;
S2.对语料库进行分词并进行词性标注,得到分词列表;
S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;
①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N-1个词组合,得到当前词的词组合列表;
②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;
③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;
④若当前词的最长词组合不存在,则将当前词标注为“O”;
⑤将标注结果保存成CRF工具所要求的格式;
S4.采用CRF工具对训练语料进行训练得到词标注模型;
S5.输出词标注模型,完成模型训练;
所述分词应用包括以下步骤:
a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;
b)基于初始分词列表构建特征表;
特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;
c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三...
【专利技术属性】
技术研发人员:黄金才,陈发君,刘忠,程光权,朱承,修保新,陈超,冯旸赫,孟果,易作天,
申请(专利权)人:中国人民解放军国防科学技术大学,长沙市源本信息科技有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。