分词的方法及装置制造方法及图纸

技术编号：13332782 阅读：80 留言：0更新日期：2016-07-12 02:11

本发明专利技术公开了一种分词方法和装置，装置包括用于训练词标注模型的分词&标注模块和CRF训练模块，以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型：训练词标注模型的方法为：采集语料库，并使用N‑最短路径分词方法对语料库进行分词，然后使用领域词典对语料库分词结果进行标注，将标注后的语料库使用CRF工具进行训练得到词标注模型；得到词标注模型后即可进入分词应用，分词应用其方法为：首先使用N‑最短路径分词方法对文本进行初始分词，对初始分词结果基于词标注模型进行序列标注，将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注，考虑了全局上下文信息，有利于提高词合并的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，尤其涉及一种分词的方法及装置。
技术介绍
随着互联网的快速发展，信息服务变得越来越普遍。信息服务提供商提供信息服务时，通常会挖掘实体(现实世界中的客观事物称为实体，例如概念、事物或事件等)之间的关联关系，并根据实体之间的关联关系提供信息服务。例如，“南方航空”是“一带一路”的概念股票，二者是实体的实例并且之间存在联系，基于这种关联关系通过检索“一带一路”可以获取与其相关的概念股票。实体之间的关联关系通常是在文本分词基础之上通过计算共现等测度获得，因此分词性能的好坏直接影响后续处理及最终的关联结果。在现有技术中通常有基于词典的分词和基于统计模型的分词，如公开号为102982099A的专利文献，提供了一种个性化并行分词处理系统及其处理方法。基于词典的分词方法分词效率较高但准确性较差，而基于统计模型的分词方法可以自动学习词语切分的规则，在歧义切分效果上较好，但受限于训练语料分词结果在粒度和一致性上不够稳定，性能较差。基于N-最短路径的分词方法结合词典与统计模型在分词速度和准确度两方面都取得了较好效果，但受限词典与统计模型，对于词的切分常常过于细，例如“可穿戴设备”被切分为“可”、“穿戴”和“设备”，但在特定领域内常常需要将“可穿戴设备”作为一个整词来与其他实体建立关联。通常可采用领域词典的方式对初始分词结果中的词进行机械合并，但这种方法只能合并领域词典中包含的词，例如词典中只包含“广东旅游”、“北...

【技术保护点】
分词的方法，其特征在于，首先使用条件随机场进行词标注模型训练，得到词标注模型后即可进入分词应用；所述词标注模型训练包括以下步骤：S1.采集语料库和准备语料库所属领域的领域词典；随机选取一定时期内一技术领域内的新闻语料，并选取该领域的领域词典；S2.对语料库进行分词并进行词性标注，得到分词列表；S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料；①遍历分词列表：对词进行向后取N个词进行组合，遇到标点符号则停止，每个词最多可产生N‑1个词组合，得到当前词的词组合列表；②遍历词组合列表，将词组合与领域词典进行比较，获取包含于领域词典中的最长词组合；③若最长词组合存在，则对最长词组合中包含的第一个词标注为“B”，其他词标注为“I”；④若当前词的最长词组合不存在，则将当前词标注为“O”；⑤将标注结果保存成CRF工具所要求的格式；S4.采用CRF工具对训练语料进行训练得到词标注模型；S5.输出词标注模型，完成模型训练；所述分词应用包括以下步骤：a)读取文本，加载词标注模型，采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注，得到初始分词列表；b)基于初始分词...

【技术特征摘要】
1.分词的方法，其特征在于，首先使用条件随机场进行词标注模型训练，得到词标注模型后即可进入分词应用；
所述词标注模型训练包括以下步骤：
S1.采集语料库和准备语料库所属领域的领域词典；
随机选取一定时期内一技术领域内的新闻语料，并选取该领域的领域词典；
S2.对语料库进行分词并进行词性标注，得到分词列表；
S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料；
①遍历分词列表：对词进行向后取N个词进行组合，遇到标点符号则停止，每个词最多可产生N-1个词组合，得到当前词的词组合列表；
②遍历词组合列表，将词组合与领域词典进行比较，获取包含于领域词典中的最长词组合；
③若最长词组合存在，则对最长词组合中包含的第一个词标注为“B”，其他词标注为“I”；
④若当前词的最长词组合不存在，则将当前词标注为“O”；
⑤将标注结果保存成CRF工具所要求的格式；
S4.采用CRF工具对训练语料进行训练得到词标注模型；
S5.输出词标注模型，完成模型训练；
所述分词应用包括以下步骤：
a)读取文本，加载词标注模型，采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注，得到初始分词列表；
b)基于初始分词列表构建特征表；
特征表是一个M*3大小的二维列表T[M][3]，其中M为分词列表的长度；遍历初始分词列表，对于第i个词，将该词的字符记录在T[i][1]，词性记录在T[i][2]，其中假设列表的索引从1开始；
c)对特征表T使用模型训练中得到的词标注模型进行标注，将标注结果保存在特征表对应位置的第三...

【专利技术属性】
技术研发人员：黄金才，陈发君，刘忠，程光权，朱承，修保新，陈超，冯旸赫，孟果，易作天，
申请(专利权)人：中国人民解放军国防科学技术大学，长沙市源本信息科技有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人