一种领域新词抽取的方法技术

技术编号:14000022 阅读:49 留言:0更新日期:2016-11-15 14:11
本发明专利技术公开了一种利用word2vec与Bootstrapping迭代相结合的领域新词抽取方法,该方法首先对领域语料进行预处理,再利用n‑gram对预处理得到的领域文本进行切分,统计切分得到的字符串的词频、左右邻字个数、左右字熵以及互信息六维统计量,结合kmeans设置一组参数,进行初步评价,过滤得到第一轮结果,再由word2vec训练得到的词向量空间和一组领域种子数据,通过分别计算每个候选词与种子集合的余弦相似度之和,设定总和阈值进行再评价,从而抽取出该领域的新词。本发明专利技术适用于大规模领域语料的新词抽取,并具有良好的可移植性。本发明专利技术从根本上解决了动宾结构、叠词等非领域词的过滤难题。

【技术实现步骤摘要】

本专利技术涉及自然语言处理的新词发现领域,尤其是一种领域新词抽取的方法
技术介绍
随着互联网技术的飞速发展,大量新词语不断涌现。包括专有名词、派生词、方言词语、行业用词、音译词、外来字母词、港台用词以及其他领域的相关术语词,这些词称为新词。中文分词是大多信息检索系统的基础,然而现有的分词算法无法做到对全部领域新词的覆盖,这时就需要借助用户字典提高分词准确率,从而提高检索系统的质量,可见及时发现和更新领域新词具有重要意义。传统的新词发现研究主要集中在专有名词识别上,如利用隐马尔科夫模型、角色定义、语料库训练等方法进行人名和地名的识别,一般利用对语料库的学习,寻找专用字的规律和统计数据进行新词发现。然而真实的语料中,绝大部分的新词并非是专有名词,如在特定领域的新词,针对该问题现有的做法是通过对特定领域的文本进行切分字符串,并做一些统计,基于这些统计量设定阈值,进行一轮过滤从而得到领域新词。这类方法大多基于web的,虽然使用该方法可以获得大于阈值的新词,但是存在诸多不足。如web上重复的网页较多、网页内容随意性较大,另外过滤得到的词库中仍含有大量噪音,比如动宾结构的词语以及一些叠词。如何解决这些不足,也是传统方法的瓶颈所在。为了克服上述现有技术中的不足,提出了一种利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法。
技术实现思路
本专利技术提出了一种利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法,其特征在于,该方法包括以下步骤:步骤一:获取若干领域内的语料,去除语料中的控制字符,获得格式整齐的领域文本;步骤二:根据标点符号对所述领域文本进行分句处理,得到领域单句集合S;步骤三:初始化设置n-gram模型,并对所述领域单句集合S切分字符串,获得字符串集合W0;步骤四:统计所述字符串集合W0的词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计量,并设置相应的参数进行筛选过滤,得到候选词集W1;步骤五:将所述候选词集W1添加到分词的用户字典中,并使用结巴分词对所述领域单句集合S进行分词,获得单句分词集合Sseg;步骤六:使用word2vec训练所述单句分词集合Sseg,得到词向量空间WE;步骤七:构建领域种子集合Seeds,指定每个领域内的代表性词语并初始化所述领域种子集合Seeds;步骤八:对每个领域的所述候选词集W1中的字符串,分别计算其与该领域的所述领域种子集合中的所有词语的余弦相似度的总和Ecos;设定总和阈值,若总和Ecos大于总和阈值则将所述候选词集中的字符串作为领域新词添加至领域新词集合NWs中,判断所述领域新词集合NWs是否发生变化,如有则进行步骤九,如未发生变化则进行步骤十;若总和Ecos小于等于总和阈值,则直接过滤掉;步骤九:从所述领域新词集合NWs中选取热点词语替换该领域的所述领域种子集合Seeds中的词语,跳转步骤八进行迭代;步骤十:迭代结束,所述领域新词集合NWs为领域新词抽取结果。本专利技术提出的所述领域新词抽取方法中,所述热点词语是指所述领域新词集合NWs中按Ecos排序的前10位词语。本专利技术提出的所述领域新词抽取方法中,初始化设置n-gram模型时,n=5。本专利技术提出的所述领域新词抽取方法中,步骤六使用word2vec训练单句分词集合Sseg包括如下具体步骤:步骤a:将所述单句分词集合Sseg中的繁体字转化为简体字;步骤b:将所述单句分词集合Sseg中不是utf-8编码的部分转化为utf-8编码;步骤c:使用Python版的word2vec工具包gensim,通过设置单词向量的维度大小、训练窗口大小、最低频率参数;使用gensim对所述单句分词集合(Sseg)进行词向量的训练,删除所述单句分词集合(Sseg)中词频小于所述最低频率参数的单词。本专利技术的有益效果在于:能通过统计量过滤,进行初评价,保证成词率,再经过word2vec与Bootstrapping迭代循环,进行再评价,抽取领域词汇。该方法能有效过滤掉传统方法无法过滤掉的动宾结构和叠词等噪音。附图说明图1为本专利技术的流程示意图。具体实施方式结合以下具体实施例和附图,对本专利技术作进一步的详细说明。实施本专利技术的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本专利技术没有特别限制内容。本专利技术利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法括以下步骤:步骤一:获取若干领域内的语料,去除语料中的控制字符,获得格式整齐的领域文本;步骤二:根据标点符号对领域文本进行分句处理,得到领域单句集合S;步骤三:初始化设置n-gram模型,并对领域单句集合S切分字符串,获得字符串集合W0;步骤四:统计字符串集合W0的词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计量,并设置相应的参数进行筛选过滤,本实施例中先根据k-means算法,使用六维统计量作为聚类的特征,簇值选取为2,最终的参数根据簇中心进行调整得到候选词集W1;步骤五:将所述候选词集W1添加到分词的用户字典中,并使用结巴分词对领域单句集合S进行分词,获得单句分词集合Sseg;步骤六:使用word2vec训练单句分词集合Sseg,得到词向量空间WE;步骤七:构建领域种子集合Seeds,指定每个领域内的代表性词语并初始化领域种子集合Seeds;步骤八:对每个领域的候选词集W1中的字符串,分别计算其与该领域的领域种子集合中的所有词语的余弦相似度的总和Ecos;设定总和阈值,若总和Ecos大于总和阈值则将候选词集中的字符串作为领域新词添加至领域新词集合NWs中,判断领域新词集合NWs是否发生变化,如有则进行步骤九,如未发生变化则进行步骤十;若总和Ecos小于等于总和阈值,则直接过滤掉;步骤九:从领域新词集合NWs中选取热点词语替换该领域的领域种子集合Seeds中的词语,跳转步骤八进行迭代;步骤十:迭代结束,领域新词集合NWs为领域新词抽取结果。以下结合表1,对本专利技术的数据清洗过程作进一步解释说明。第一步:向小i机器人有限公司申请其自动问答系统中各个领域的问句语料D0,转到第二步;将D0去除文本中的控制字符,得到格式干净整齐的领域文本D,转到第三步;第二步:对领域文本D,按照句号、问句和感叹号对领域文本进行分句处理,得到领域单句集合S;第三步:利用n-gram模型,对单句集合S进行字符串切分,其中n取值为5,即认为最长的候选词的长度为5,大于5不满足成词条件。最终切分得到字符串集合W0,转到第四步;第四步:对字符串集合W0,统计词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计信息,参阅表1,并设定一组参数对W0进行过滤,得到候选词集W1,转到第五步;第五步:将候选词集W1全部添加到分词工具对应的用户字典,并使用结巴分词对领域单句集合S进行分词,以保证候选词能被完整被切分出来,最终得到Sseg集,转到第六步;第六步:使用word2vec工具对Sseg进行训练,其中word2vec(word to vector),是将单词转换成向量形式的工具。通过转换,可以把对文本内容的处理简化为向量空间运算,具体转换过程如下:步骤a:将所述单句分词集合Sseg中的繁体字转化为简体本文档来自技高网...

【技术保护点】
一种利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法,其特征在于,该方法包括以下步骤:步骤一:获取若干领域内的语料,去除语料中的控制字符,获得格式整齐的领域文本;步骤二:根据标点符号对所述领域文本进行分句处理,得到领域单句集合(S);步骤三:初始化设置n‑gram模型,并对所述领域单句集合(S)切分字符串,获得字符串集合(W0);步骤四:统计所述字符串集合(W0)的词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计量,并设置相应的参数进行筛选过滤,经过过滤得到候选词集(W1);步骤五:将所述候选词集(W1)添加到分词的用户字典中,并使用结巴分词对所述领域单句集合(S)进行分词,获得单句分词集合(Sseg);步骤六:使用word2vec训练单句分词集合(Sseg),得到词向量空间(WE);步骤七:构建领域种子集合(Seeds),指定每个领域内的代表性词语并初始化所述领域种子集合(Seeds);步骤八:对每个领域的所述候选词集(W1)中的字符串,分别计算其与该领域的所述领域种子集合(Seeds)中的所有词语的余弦相似度的总和(Ecos);设定总和阈值,若总和(Ecos)大于总和阈值则将所述候选词集(W1)中的字符串作为领域新词添加至领域新词集合(NWs)中,判断所述领域新词集合(NWs)是否发生变化,如有则进行步骤九,如未发生变化则进行步骤十;若总和(Ecos)小于等于总和阈值,则直接过滤掉;步骤九:从所述领域新词集合(NWs)中选取热点词语替换该领域的所述领域种子集合(Seeds)中的词语,跳转步骤八进行迭代;步骤十:迭代结束,所述领域新词集合(NWs)为领域新词抽取结果。...

【技术特征摘要】
1.一种利用word2vec和Bootstrapping迭代相结合的领域新词抽取方法,其特征在于,该方法包括以下步骤:步骤一:获取若干领域内的语料,去除语料中的控制字符,获得格式整齐的领域文本;步骤二:根据标点符号对所述领域文本进行分句处理,得到领域单句集合(S);步骤三:初始化设置n-gram模型,并对所述领域单句集合(S)切分字符串,获得字符串集合(W0);步骤四:统计所述字符串集合(W0)的词频、左邻个数、右邻个数、左字熵、右字熵以及互信息六维统计量,并设置相应的参数进行筛选过滤,经过过滤得到候选词集(W1);步骤五:将所述候选词集(W1)添加到分词的用户字典中,并使用结巴分词对所述领域单句集合(S)进行分词,获得单句分词集合(Sseg);步骤六:使用word2vec训练单句分词集合(Sseg),得到词向量空间(WE);步骤七:构建领域种子集合(Seeds),指定每个领域内的代表性词语并初始化所述领域种子集合(Seeds);步骤八:对每个领域的所述候选词集(W1)中的字符串,分别计算其与该领域的所述领域种子集合(Seeds)中的所有词语的余弦相似度的总和(Ecos);设定总和阈值,若总和(Ecos)大于总和阈值则将所述候选词集(W1)中的字符串作为领域新词添加至领域新词集合(NWs)中,判断所述领域新词集合(NWs)是否发生变化,如有则进行步骤九,如未发生变化则进行步骤十;若总和(Eco...

【专利技术属性】
技术研发人员:杨燕马敬超贺樑
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1