基于社交媒体的词嵌入方法、系统、终端设备及存储介质技术方案

技术编号：16718064 阅读：53 留言：0更新日期：2017-12-05 16:27

本发明专利技术公开了一种基于社交媒体的词嵌入方法、系统、终端设备及可读存储介质，所述方法包括：获取在预定的社交媒体上的N个用户发表的自然语言文本，生成与每个用户对应的训练语料库；根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数；基于所述基本词嵌入模型，同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练；保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量。基于本发明专利技术进行自然语言任务处理时，可以有效的改善词嵌入在下游任务的表现。

Word embedding method, system, terminal device and storage medium based on social media

The invention discloses a word embedding method, based on social media system, terminal device and computer-readable storage medium, the method comprises: acquiring natural language text in the book on social media: N users, with each user generated the corresponding training corpus; according to the construction of objective function is obtained for each user and the corresponding relationship the training corpus and predetermined basic words embedded model; the basic word embedding model based on user vector for each of the training corpus in the word, and the word vector global word corresponding to the user and the objective function of training; global word vector vector and user training parameters, each word each user training after preservation after training and basic word corresponding to the embedded model. Based on the natural language task processing, the invention can effectively improve the performance of the word embedded in the downstream task.

全部详细技术资料下载

【技术实现步骤摘要】
基于社交媒体的词嵌入方法、系统、终端设备及存储介质
本专利技术涉及自然语言处理领域，尤其涉及一种基于社交媒体的词嵌入方法、系统、终端设备及存储介质。
技术介绍
社交媒体已经成为在网络上发表自然语言文本的主要渠道之一。用户越来越倾向于使用社交媒体平台来获取关于朋友的生活的更新以及从朋友那里学习知识。不同于常规或正式语言的使用，在社交媒体上，人们倾向于使用特有的词语，并以自己的喜好创造新词。有趣的是，一些新的语言模式很容易在社交媒体上传播。一个众所周知的社会网络概念：“同质化”已经发展成为心理学研究和社会科学。同质化表明用户成为朋友后，倾向于分享类似的意见或话题。社交媒体也证实了这一点。一个社交网络的松散或者紧密取决于成员如何与彼此交互，并且其语言模式可能被其中的一个用户的语言模式所影响。人们的社会语言规范可以依赖于他们的教育，工作阶层，年龄。例如，一些人说“我要...”，而其他人说“我是去...“，有的人说”看起来像...“而其他人说“看起来好像...”，所以发展基于计算社会语言学的社会媒体文本是有必要的。文本数据表示在计算语言学和自然语言处理中起关键作用。最近，基于神经网络语言模型(NNLM)的分布式词表示已经吸引了很多的关注，因为这样的密集词向量表示在高维(但比独热码低得多的维度)空间可以减少计算复杂度并提高机器学习模型对许多下游任务的的泛化能力。词嵌入，如word2vec，可以通过减少潜在变量并放宽作为前一单词的上下文单词的约束来简化NNLM架构。因此，它可以提供高效的训练算法来训练大规模语料库，并广泛应用于信息提取、情绪分析，搜索引擎等多种应用中。在...
基于社交媒体的词嵌入方法、系统、终端设备及存储介质

【技术保护点】
一种基于社交媒体的词嵌入方法，其特征在于，包括如下步骤：获取在预定的社交媒体上的N个用户发表的自然语言文本，生成与每个用户对应的训练语料库，其中，N为正整数；根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数；基于所述基本词嵌入模型，同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练；保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量，以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。

【技术特征摘要】
1.一种基于社交媒体的词嵌入方法，其特征在于，包括如下步骤：获取在预定的社交媒体上的N个用户发表的自然语言文本，生成与每个用户对应的训练语料库，其中，N为正整数；根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数；基于所述基本词嵌入模型，同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练；保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量，以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。2.根据权利要求1所述的基于社交媒体的词嵌入方法，其特征在于，当所述基本词嵌入模型为CBOW模型时，所述目标函数表示为：其中，表示第i个用户ui的训练语料库，wj表示训练语料库中的第j个单词，C(wj，ui)表示ωj的上下文，长度由窗口参数决定。3.根据权利要求1所述的基于社交媒体的词嵌入方法，其特征在于，在根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数之后，在所述基本词嵌入模型中，根据每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练之前，还包括：获取每个用户在所述社交媒体上的好友用户的用户向量；根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项；利用所述社交正则化项对所述目标函数进行社交修正。4.根据权利要求1所述的基于社交媒体的词嵌入方法，其特征在于，对于与用户ui对应的训练语料库中的第j个单词wj，其个性化词向量表示为：其中，wj为wj的全局词向量，ui为用户ui的用户向量，wj和ui为具有相同维度的向量。5.根据权利要求3所述的基于社交媒体的词嵌入方法，其特征在于，所述社交正则化项表示为：其中，表示用户ui在所述社交媒体上的好友用户的集合；uj为用户uj的用户向量，且uj属于集合6.根据权利要求5所述的基于社交媒体的词嵌入方法，其特征在于，在利用所述社交正则化项对所述目标函数进行社交修正后，社交修正得到的目标函数为：其中，为社交修正前的目标函数，...

【专利技术属性】
技术研发人员：曾子倩，尹伊淳，宋阳秋，张铭，
申请(专利权)人：广州市香港科大霍英东研究院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人