一种获取词向量的方法和装置制造方法及图纸

技术编号：14525132 阅读：259 留言：0更新日期：2017-02-02 03:40

本发明专利技术公开了一种获取词向量的方法和装置，属于计算机技术领域。所述方法包括：获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型，得到每个待分析词语对应的类型集合；将每个待分析词语的词向量设置为训练变量，根据每个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型；根据所述训练模型，基于使所述关联度的总和最大的原则，对所述训练变量进行训练，得到所述每个待分析词语的词向量。采用本发明专利技术，可以提高词向量的语义的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种获取词向量的方法和装置。
技术介绍
随着计算机技术的发展，计算机的应用越来越广泛，功能也越来越强大。其中，信息检索功能是人们常用的功能之一。人们可以在计算机中输入待检索的问题，计算机则可以将该问题发送给相应的服务器，服务器中可以预先存储多个问题，以及相应的答案，服务器接收到计算机发送的问题后，可以确定该问题所包含的词语的词向量，根据确定出的词向量将该问题和预先存储的问题进行语义匹配，将匹配度最高的问题的答案反馈给计算机。服务器中可以预先存储大量的语句，以及这些语句所包含的词语，对于语句库中的每个词语，服务器可以获取包含该词语的语句，进而在这些语句中，获取与词语相邻的上下文词语，基于使词语与上下文词语的关联度之和最大的原则，计算每个词语的词向量。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：在确定词语的词向量时，是基于使该词语与上下文词语的关联度之和最大的原则，计算该词语的词向量，然而在实际中，经常会出现同一语句中的两个词语实际不相关的情况，因此，在这两个词语的关联度最大时，训练得到词向量，会使得训练得到的词向量的语义的准确度较差。
技术实现思路
为了解决现有技术的问题，本专利技术实施例提供了一种获取词向量的方法和装置。所述技术方案如下：第一方面，提供了一种获取词向量的方法，所述方法包括：获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型，得到每个待分析词语对应的类型集合；将每个待分析词语的词向量设置为训练变量，根据每个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度...

【技术保护点】
一种获取词向量的方法，其特征在于，所述方法包括：获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型，得到每个待分析词语对应的类型集合；将每个待分析词语的词向量设置为训练变量，根据每个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型；根据所述训练模型，基于使所述关联度的总和最大的原则，对所述训练变量进行训练，得到所述每个待分析词语的词向量。

【技术特征摘要】
1.一种获取词向量的方法，其特征在于，所述方法包括：获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型，得到每个待分析词语对应的类型集合；将每个待分析词语的词向量设置为训练变量，根据每个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型；根据所述训练模型，基于使所述关联度的总和最大的原则，对所述训练变量进行训练，得到所述每个待分析词语的词向量。2.根据权利要求1所述的方法，其特征在于，所述将每个待分析词语的词向量设置为训练变量，根据每个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型，包括：将每个待分析词语的词向量设置为训练变量，根据所述每个待分析词语对应的类型集合和词向量，以及在所述语句库中，与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型。3.根据权利要求2所述的方法，其特征在于，所述将每个待分析词语的词向量设置为训练变量，根据所述每个待分析词语对应的类型集合和词向量，以及在所述语句库中，与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型，包括：将每个待分析词语的词向量设置为训练变量，根据所述每个待分析词语对应的词向量，以及在所述语句库中，与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的词向量，建立各待分析词语之间的相似度模型；根据所述相似度模型、所述每个待分析词语对应的类型集合，以及在所述语句库中，与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合，建立各待分析词语之间关联度的总和的计算模型，作为训练模型。4.根据权利要求3所述的方法，其特征在于，所述根据所述相似度模型、所述每个待分析词语对应的类型集合，以及在所述语句库中，与所述每个待分
\t析词语在语句中相邻的预设数目个待分析词语对应的类型集合，建立各待分析词语之间关联度的总和的计算模型，作为训练模型，包括：在所述语句库中，确定与所述每个待分析词语在语句中相邻的预设数目个待分析词语；根据每个待分析词语对应的类型集合中包含的类型，对所述每个待分析词语，分别确定其与对应的相邻的预设数目个待分析词语中每个词语所具有的相同的类型的数目；根据所述相似度模型，以及所述每个待分析词语与对应的相邻的预设数目个待分析词语中每个词语所具有的相同的类型的数目，建立各待分析词语之间关联度的总和的计算模型，作为训练模型。5.根据权利要求2所述的方法，其特征在于，所述将每个待分析词语的词向量设置为训练变量，根据所述每个待分析词语对应的类型集合和词向量，以及在所述语句库中，与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合和词向量，建立各待分析词语之间关联度的总和的计算模型，作为训练模型，包括：将每个待分析词语的词向量设置为训练变量，根据所述每个待分析词语对应的词向量，以及在所述语句库中，与所述每个待分析词语在语句中相邻的预设数目个待分析...

【专利技术属性】
技术研发人员：周光有，张小鹏，肖磊，蒋杰，管刚，刘婷婷，
申请(专利权)人：华中师范大学，腾讯科技深圳有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人