一种基于词典生成词向量的方法及系统技术方案

技术编号：26924385 阅读：49 留言：0更新日期：2021-01-01 22:49

本发明专利技术涉及一种基于词典生成词向量的方法及系统，包括：将词典包含的词汇构成词汇集合，统计所述词汇集合中各词汇在所述词典包含的词汇释义中出现的频率，根据所述频率对各词汇释义进行分词，得到释义词汇序列；以所述词汇为节点，根据各词汇及释义词汇序列的对应关系，对各节点进行连接，构成有向边，并确定各有向边的权重，得到基于词典的有向图；基于深度游走算法对所述有向图进行计算，得到词向量。本发明专利技术将词典提供的词汇信息融合进词向量，能够为词向量训练提供优质的数据基础，进而更好地对词义进行挖掘、支撑自然语言处理任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词典生成词向量的方法及系统
本专利技术涉及自然语言处理领域，尤其涉及一种基于词典生成词向量的方法及系统。
技术介绍
将词语表示为向量的技术起源于20世纪60年代，随着用于信息检索的向量空间模型的发展，使用奇异值分解减少维数，然后在20世纪80年代后期引入潜在语义分析。随着技术的不断发展，词向量结合深度网络在现有的自然语言处理任务中有广泛应用，通常词向量都基于海量无标注语料产生，基本思路都是用文本中前后文预测当前词。语料是人工编写的，两个词义相近的词被用到的频率有时候是很不同的，这会导致频率低的词训练不充分，词义挖掘不足。词典是对词汇意义的解释，是最精炼、最准确的语义解释，因此，若能将词典提供的信息融合进入词向量里，则能很好地弥补上述现有技术中存在的缺陷。
技术实现思路
有鉴于此，本专利技术提供一种基于词典生成词向量的方法及系统，至少部分解决现有技术中存在的问题。本专利技术基于词典构造词汇有向图，基于深度游走算法对有向图进行计算，得到词向量，即将词典提供的词汇信息融合进词向量。本专利技术具体为：一种基于词典生成词向量的方法，包括：将词典包含的词汇构成词汇集合，统计所述词汇集合中各词汇在所述词典包含的词汇释义中出现的频率，根据所述频率对各词汇释义进行分词，得到释义词汇序列；以所述词汇为节点，根据各词汇及释义词汇序列的对应关系，对各节点进行连接，构成有向边，并确定各有向边的权重，得到基于词典的有向图；基于深度游走算法对所述有向图进行计算，得到词向量。进一步

【技术保护点】
1.一种基于词典生成词向量的方法，其特征在于，包括：/n将词典包含的词汇构成词汇集合，统计所述词汇集合中各词汇在所述词典包含的词汇释义中出现的频率，根据所述频率对各词汇释义进行分词，得到释义词汇序列；/n以所述词汇为节点，根据各词汇及释义词汇序列的对应关系，对各节点进行连接，构成有向边，并确定各有向边的权重，得到基于词典的有向图；/n基于深度游走算法对所述有向图进行计算，得到词向量。/n

【技术特征摘要】
1.一种基于词典生成词向量的方法，其特征在于，包括：
将词典包含的词汇构成词汇集合，统计所述词汇集合中各词汇在所述词典包含的词汇释义中出现的频率，根据所述频率对各词汇释义进行分词，得到释义词汇序列；
以所述词汇为节点，根据各词汇及释义词汇序列的对应关系，对各节点进行连接，构成有向边，并确定各有向边的权重，得到基于词典的有向图；
基于深度游走算法对所述有向图进行计算，得到词向量。

2.根据权利要求1所述的方法，其特征在于，所述根据所述频率对各词汇释义进行分词，具体为：
将所述频率作为基于词典分词器的参数，利用分词算法对所述各词汇释义进行分词处理。

3.根据权利要求2所述的方法，其特征在于，所述以所述词汇为节点，根据各词汇及释义词汇序列的对应关系，对各节点进行连接，构成有向边，具体为：
基于遍历算法，在所述各释义词汇序列中对各词汇进行遍历，当一个词汇在另一个词汇的释义词汇序列中时，则生成一条从所述另一个词汇出发到达该词汇的边，形成一条有向边；基于该过程对所述词汇集合中包含的所有词汇进行遍历，直到各节点的连接过程完毕。

4.根据权利要求3所述的方法，其特征在于，所述按规定确定各有向边的权重，具体为：
基于TF-IDF算法，将有向边对应的被指向词汇在所在的释义词汇序列中的权值作为该有向边的权重。

5.根据权利要求4所述的方法，其特征在于，所述基于深度游走算法对所述有向图进行计算，得到词向量，具体为：
基于随机游走算法对所述有向图进行遍历计算，在一次遍历过程中，首先给定对所述有向图进行访问的起始节点，根据所述起始节点包含的有向边的权重，选择对应有向边指向的节点为下一个访问点，直到访问序列长度满足预设条件；
利用word2vec模型对经过上述遍历计算后得到的所有节点序列进行向量化计算，得到词向量。

6....

【专利技术属性】
技术研发人员：练睿，肖杰，莫永卓，赵顺峰，
申请(专利权)人：和美深圳信息技术股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人