【技术实现步骤摘要】
一种基于NLP和模糊多准则决策的文本实体推荐方法
本专利技术涉及自然语言处理、深度学习和多属性决策领域,尤其涉及一种基于NLP和模糊多准则决策的文本实体推荐方法。
技术介绍
随着计算机应用领域的不断扩大,互联网上的数字信息越来越多,用户也越来越多,导致信息超载,这使得自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言,首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型。有许多统计语言建模技术。在对自然语言进行建模的过程中,会出现维数灾难、词语相似性、模型泛化能力以及模型性能等问题。寻找上述问题的解决方案是推动统计语言模型不断发展的内在动力。在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2Vec(WordtoVector)也被称为“WordEmbedding”,一般被理解为“词向量”或“词嵌入”,是由托马斯·米科洛夫(TomasMikolov)团队在Bengio提出的神经网络语言模型(NeuralNetworkLanguageModel)和Hinton提出的LogBilinear模型的基础上开源的一款用于计算词向量的深度学习工具,通过学习文本可以将字词转换为向量的形式并用词向量的方式表征词的语义信息,其思想是通过将单词从原先所属的空间嵌入到一个新的多维空 ...
【技术保护点】
1.一种基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,包括如下步骤:/n1)采用word2vec对文本进行词向量训练:采用连续词袋模型即CBOW并根据文本语料的原始输入完成文本语料分布式训练,并且转化成词向量,采用的连续词袋模型包括三层的神经网络;/n2)对每个词向量进行相似度计算:将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算,如公式(1)所示:/n
【技术特征摘要】
1.一种基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,包括如下步骤:
1)采用word2vec对文本进行词向量训练:采用连续词袋模型即CBOW并根据文本语料的原始输入完成文本语料分布式训练,并且转化成词向量,采用的连续词袋模型包括三层的神经网络;
2)对每个词向量进行相似度计算:将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算,如公式(1)所示:
其中,A=(A1,A2,…,An)和B=(B1,B2,…,Bn)为两个n维向量,||A||和||B||分别为向量A和B的模,对于两个多维度向量A和B,向量A和向量B的空间点积,然后除以两者的模,得到的结果便是两者向量之间的相似度cosθ;经过步骤1)、步骤2)的语料转化为向量,再经过余弦相似度转化为相似度,并且得到的余弦相似度的取值范围为[0,1];
3)构造模糊多准则决策的推荐过程:一个文本实体多准则决策即MCDM问题描述为有一组备选实体A={A1,A2,…,Am},一组标准C={C1,C2,…,Cn}和一个决策矩阵M:
其中A1,A2,…,Am是不同的选择,C1,C2,…,Cn是不同的标准,vi,j(i=1,2,…,m,j=1,2,…,n)是选择i对于准则j的数值,根据集合A、集合C和矩阵M,将文本实体多准则决策问题描述为:在基于标准集合C和决策矩阵M的A级元素等级的帮助下做出决定,对于实体推荐问题,在文本中选出m个候选实体作为备选方案(A1、A2、…),这些实体的选择标准是n个不同的实体,C={C1,C2,…,Cn},则数值vi,j可表示为候选实体与标准实体之间的相似度,基于此,实体推荐问题描述为:基于决策矩阵M和标准实体集合,从m个候选实体中选择出与n个标准实体总体相似度最大的实体;
4)量化实体词向量相似度参数:选择模糊数表示实体之间的相似度,而模糊数必须符合数值范围在0-1之间,量化数值vi,j(i=1,2,…,m,j=1,2,…,n)到模糊数中,构造比率模型,其中每个vi,j与作为A1、A2、…的表示的分母进行比较,最佳的比率模型是该分母的每个选择准则的平方和的平方根即如公式(2)所示:
其中i=1,2,…,m,j=1,2,…,n,rij是vi,j的比值,0≤rij≤1,数值vi,j可以量化为模糊数<rij>;
5)构造模糊决策标准矩阵:在矩阵M中,数值vi,j(i=1,2,…,m,j=1,2,…,n)已经被量化为模糊数<rij>(i=1,2,…,m,j=1,2,…,n),矩阵M被转换成一个元素为模糊数的矩阵MF,将模糊决策矩阵构造为:
模糊决策矩阵MF被标准化为公式(3):
MN=[Θi,j]m×n(3)
其中,Θi,j=<rij>则Cj为效益标准,Θi,j=<1-rij&...
【专利技术属性】
技术研发人员:钟艳如,高宏,赵蕾先,郭秀艳,甘才军,李一媛,罗笑南,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。