一种基于NLP和模糊多准则决策的文本实体推荐方法技术

技术编号:22974699 阅读:24 留言:0更新日期:2019-12-31 23:25
本发明专利技术公开了一种基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,包括如下步骤:1)采用word2vec对文本进行词向量训练;2)对每个词向量进行相似度计算;3)构造模糊多准则决策的推荐过程;4)量化实体词向量相似度参数5)构造模糊决策标准矩阵;6)用相对比较法确定标准实体的权重;7)使用模糊聚合算子量化实体推荐过程的总体用户偏好;8)得到被推荐实体的排名,进行推荐。这种方法能缩短文本实体推荐时间、提高词向量相似度精度,同时具有推荐精度高、软件运算量低的特点,在保证文本相似度精度的前提下实现精准推荐的要求。

A text entity recommendation method based on NLP and fuzzy multi criteria decision

【技术实现步骤摘要】
一种基于NLP和模糊多准则决策的文本实体推荐方法
本专利技术涉及自然语言处理、深度学习和多属性决策领域,尤其涉及一种基于NLP和模糊多准则决策的文本实体推荐方法。
技术介绍
随着计算机应用领域的不断扩大,互联网上的数字信息越来越多,用户也越来越多,导致信息超载,这使得自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言,首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型。有许多统计语言建模技术。在对自然语言进行建模的过程中,会出现维数灾难、词语相似性、模型泛化能力以及模型性能等问题。寻找上述问题的解决方案是推动统计语言模型不断发展的内在动力。在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2Vec(WordtoVector)也被称为“WordEmbedding”,一般被理解为“词向量”或“词嵌入”,是由托马斯·米科洛夫(TomasMikolov)团队在Bengio提出的神经网络语言模型(NeuralNetworkLanguageModel)和Hinton提出的LogBilinear模型的基础上开源的一款用于计算词向量的深度学习工具,通过学习文本可以将字词转换为向量的形式并用词向量的方式表征词的语义信息,其思想是通过将单词从原先所属的空间嵌入到一个新的多维空间中,使得语义上相似的单词在该空间内呈现较近的距离,该过程实质上即是一个映射;Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具;Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入,前者基于给定上下文,来预测目标词信息,后者则是通过输入一个词,希望预测出现在其上下文的词,计算复杂度较高,语义精确。决策是任何有目的的活动发生之前必不可少的一步。决策的主体是人,是决策者对所面临的决策问题的一个“动态的必理核算过程”。随着社会的发展,决策问题的复杂性和信息量的增大,仅仅依靠直觉和经验来决策已经不能做出准确的判断,决策分析学由此产生。当前决策者所面临的决策问题越来越复杂,所面临的决策问题往往需要均衡地综合考虑多个相互制约和矛盾的属性,而不同属性比较评价的标准通常是不同的,这就需要决策者综合考虑这些因素进行决策,由此产生了多属性决策。多属性决策理论是1957年由Churchman与Ackoff等人提出的,在现代决策中占有重要的地位,具有广泛的实际应用背景。对多属性决策的研究有长久深厚的历史背景,涉及的学科很多,如运筹学、管理学、经济学、地理学、市场学、应用统计学、决策学等等,当诸如属性权重、属性值等决策信息完全给定时,根据一些模型和方法比较容易得出评价结果。然而,在实际决策中存在大量的模糊性,决策者很难用确定数来表示多属性决策中的相关信息,因为有时候决策者处理信息的能力有限,特别是在复杂和不确定环境下的数值判断能力有限,有时一些属性是定性的,反映社会和环境的影响很难量化,有时要求的时间紧迫,而可参考的知识和数据比较缺乏,所模糊决策是决策科学发展的必然结果。美国计算机与控制论专家Zadeh教授于1965年首次提出了模糊集的概念,创造了研究模糊性或不确定性问题的理论方法。模糊理论如今已经较为完善,在某种程度上弥补了经典数学和数理统计与概率论的不足,能够较好地描述与效仿人类的思维方式,总结和反映人的体会与经验。1970年Zadeh首先根据模糊数学的知识给出模糊决策的基本模型,处理决策者不能用确定数表示的决策信息。模糊决策的理论更接近于现实,特别是对冲突的消除、群决策分析或难以达成预先设定的目标等问题,模糊数学的方法更是可靠的。模糊多属性决策是与数学、运筹学、系统工程和管理科学等相关的一门交叉学科。近几十年来,学者们逐渐将数学模型引入到决策分析中,运用现代科学计算从不同角度解决了几类模糊多属性决策问题并取得了丰硕的研究成果,但是模糊多属性决策理论的研究工作缺乏系统性,无论从理论研究和实际应用方面,都不够成熟和完善。因此对模糊多属性决策方法的研究有重要的意义,不但可丰富决策理论的发展,还可加强其理论在经济、管理、军事和工程等领域的应用。现有的文本实体相似度的研究已经很全面了,但是大数据下,任何关于实体相似度的研究都具有不确定性和相应的误差,而模糊集正好可以解决这一问题。通过将相似度用模糊数表示,在使用模糊多准则决策理论可以实现精准推荐,还可以给出相应的排名。
技术实现思路
本专利技术的目的是针对现有技术的不足,而提供一种基于NLP和模糊多准则决策的文本实体推荐方法。这种方法能缩短文本实体推荐时间、提高词向量相似度精度,同时具有推荐精度高、软件运算量低的特点,在保证文本相似度精度的前提下实现精准推荐的要求。实现本专利技术目的的技术方案是:一种基于NLP和模糊多准则决策的文本实体推荐方法,与现有技术不同处在于,包括如下步骤:1)采用word2vec对文本进行词向量训练:在自然语言处理中,最细的粒度是词语,由词语再组成句子,段落,文章,所以处理自然语言处理问题时,怎么合理的表示词语就成了自然语言处理领域中最先需要解决的问题,为了将中文字符进行数字化特征处理,需要对文本语料进行训练,将词语转化成多维度的特征向量,在自然语言处理任务中,首先需要考虑词如何在计算机中表示,通常,有两种表示方式:独热表示和分布表示,由于获得具有连续特征的向量维度,需要对独热向量进行训练分布式训练,将文本词语转化成分布式表示,采用连续词袋模型(ContinuousBag-Of-Words,简称CBOW)并根据文本语料的原始输入完成文本语料分布式训练,并且转化成词向量,采用的连续词袋模型包括三层的神经网络;2)对每个词向量进行相似度计算:将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算,如公式(1)所示:其中,A=(A1,A2,…,An)和B=(B1,B2,…,Bn)为两个n维向量,||A||和||B||分别为向量A和B的模,对于两个多维度向量A和B,向量A和向量B的空间点积,然后除以两者的模,得到的结果便是两者向量之间的相似度cosθ;由于这些向量对应的是文本实体,因此经过步骤1)、步骤2)的语料转化为向量,再经过余弦相似度转化为相似度,并且得到的余弦相似度的取值范围为[0,1];3)构造模糊多准则决策的推荐过程:一个文本实体多准则决策(MultipleCriteriaDecisionMaking,简称MCDM)问题描述为有一组备选实体A={A1,A2,…,Am},一组标准C={C1,C2,…,Cn}和一个决策矩阵M:其中A1,A2,…,Am是不同的选择,C1,C2,…,Cn是不同的标准,vi,j(i=1,2,…,m,j=1,2,…,n)是选择i对于准则j的数值,本文档来自技高网
...

【技术保护点】
1.一种基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,包括如下步骤:/n1)采用word2vec对文本进行词向量训练:采用连续词袋模型即CBOW并根据文本语料的原始输入完成文本语料分布式训练,并且转化成词向量,采用的连续词袋模型包括三层的神经网络;/n2)对每个词向量进行相似度计算:将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算,如公式(1)所示:/n

【技术特征摘要】
1.一种基于NLP和模糊多准则决策的文本实体推荐方法,其特征在于,包括如下步骤:
1)采用word2vec对文本进行词向量训练:采用连续词袋模型即CBOW并根据文本语料的原始输入完成文本语料分布式训练,并且转化成词向量,采用的连续词袋模型包括三层的神经网络;
2)对每个词向量进行相似度计算:将步骤1)中文本语料词向量训练得到的多维度向量进行相似度计算,如公式(1)所示:



其中,A=(A1,A2,…,An)和B=(B1,B2,…,Bn)为两个n维向量,||A||和||B||分别为向量A和B的模,对于两个多维度向量A和B,向量A和向量B的空间点积,然后除以两者的模,得到的结果便是两者向量之间的相似度cosθ;经过步骤1)、步骤2)的语料转化为向量,再经过余弦相似度转化为相似度,并且得到的余弦相似度的取值范围为[0,1];
3)构造模糊多准则决策的推荐过程:一个文本实体多准则决策即MCDM问题描述为有一组备选实体A={A1,A2,…,Am},一组标准C={C1,C2,…,Cn}和一个决策矩阵M:



其中A1,A2,…,Am是不同的选择,C1,C2,…,Cn是不同的标准,vi,j(i=1,2,…,m,j=1,2,…,n)是选择i对于准则j的数值,根据集合A、集合C和矩阵M,将文本实体多准则决策问题描述为:在基于标准集合C和决策矩阵M的A级元素等级的帮助下做出决定,对于实体推荐问题,在文本中选出m个候选实体作为备选方案(A1、A2、…),这些实体的选择标准是n个不同的实体,C={C1,C2,…,Cn},则数值vi,j可表示为候选实体与标准实体之间的相似度,基于此,实体推荐问题描述为:基于决策矩阵M和标准实体集合,从m个候选实体中选择出与n个标准实体总体相似度最大的实体;
4)量化实体词向量相似度参数:选择模糊数表示实体之间的相似度,而模糊数必须符合数值范围在0-1之间,量化数值vi,j(i=1,2,…,m,j=1,2,…,n)到模糊数中,构造比率模型,其中每个vi,j与作为A1、A2、…的表示的分母进行比较,最佳的比率模型是该分母的每个选择准则的平方和的平方根即如公式(2)所示:



其中i=1,2,…,m,j=1,2,…,n,rij是vi,j的比值,0≤rij≤1,数值vi,j可以量化为模糊数<rij>;
5)构造模糊决策标准矩阵:在矩阵M中,数值vi,j(i=1,2,…,m,j=1,2,…,n)已经被量化为模糊数<rij>(i=1,2,…,m,j=1,2,…,n),矩阵M被转换成一个元素为模糊数的矩阵MF,将模糊决策矩阵构造为:



模糊决策矩阵MF被标准化为公式(3):
MN=[Θi,j]m×n(3)
其中,Θi,j=<rij>则Cj为效益标准,Θi,j=<1-rij&...

【专利技术属性】
技术研发人员:钟艳如高宏赵蕾先郭秀艳甘才军李一媛罗笑南
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1