基于社交媒体的词嵌入方法、系统、终端设备及存储介质技术方案

技术编号:16718064 阅读:53 留言:0更新日期:2017-12-05 16:27
本发明专利技术公开了一种基于社交媒体的词嵌入方法、系统、终端设备及可读存储介质,所述方法包括:获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库;根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;基于所述基本词嵌入模型,同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量。基于本发明专利技术进行自然语言任务处理时,可以有效的改善词嵌入在下游任务的表现。

Word embedding method, system, terminal device and storage medium based on social media

The invention discloses a word embedding method, based on social media system, terminal device and computer-readable storage medium, the method comprises: acquiring natural language text in the book on social media: N users, with each user generated the corresponding training corpus; according to the construction of objective function is obtained for each user and the corresponding relationship the training corpus and predetermined basic words embedded model; the basic word embedding model based on user vector for each of the training corpus in the word, and the word vector global word corresponding to the user and the objective function of training; global word vector vector and user training parameters, each word each user training after preservation after training and basic word corresponding to the embedded model. Based on the natural language task processing, the invention can effectively improve the performance of the word embedded in the downstream task.

【技术实现步骤摘要】
基于社交媒体的词嵌入方法、系统、终端设备及存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种基于社交媒体的词嵌入方法、系统、终端设备及存储介质。
技术介绍
社交媒体已经成为在网络上发表自然语言文本的主要渠道之一。用户越来越倾向于使用社交媒体平台来获取关于朋友的生活的更新以及从朋友那里学习知识。不同于常规或正式语言的使用,在社交媒体上,人们倾向于使用特有的词语,并以自己的喜好创造新词。有趣的是,一些新的语言模式很容易在社交媒体上传播。一个众所周知的社会网络概念:“同质化”已经发展成为心理学研究和社会科学。同质化表明用户成为朋友后,倾向于分享类似的意见或话题。社交媒体也证实了这一点。一个社交网络的松散或者紧密取决于成员如何与彼此交互,并且其语言模式可能被其中的一个用户的语言模式所影响。人们的社会语言规范可以依赖于他们的教育,工作阶层,年龄。例如,一些人说“我要...”,而其他人说“我是去...“,有的人说”看起来像...“而其他人说“看起来好像...”,所以发展基于计算社会语言学的社会媒体文本是有必要的。文本数据表示在计算语言学和自然语言处理中起关键作用。最近,基于神经网络语言模型(NNLM)的分布式词表示已经吸引了很多的关注,因为这样的密集词向量表示在高维(但比独热码低得多的维度)空间可以减少计算复杂度并提高机器学习模型对许多下游任务的的泛化能力。词嵌入,如word2vec,可以通过减少潜在变量并放宽作为前一单词的上下文单词的约束来简化NNLM架构。因此,它可以提供高效的训练算法来训练大规模语料库,并广泛应用于信息提取、情绪分析,搜索引擎等多种应用中。在将文本表示学习应用于社交媒体文本时,一个关键的问题是处理前面提到的不同社会群体的差异。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种基于社交媒体的词嵌入方法、系统、终端设备及存储介质,可以处理前面不同社会群体的差异,改善自然语言处理的下游任务。本专利技术提供了一种基于社交媒体的词嵌入方法,包括:获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。优选地,当所述基本词嵌入模型为CBOW模型时,所述目标函数表示为:其中,wi表示第i个用户ui的训练语料库,wj表示训练语料库wi中的第j个单词,C(wj,ui)表示ωj的上下文。优选地,在根据每个用户与训练语料库的对应关系及预定的Word2Vec模型构建得到目标函数之后,在所述词嵌入模型中,根据每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练之前,还包括:获取每个用户在所述社交媒体上的好友用户的用户向量;根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;利用所述社交正则化项对所述目标函数进行社交修正。优选地,对于与用户ui对应的训练语料库中的第j个单词wj,其个性化词向量表示为:其中,wj为wj的全局词向量,ui为用户ui的用户向量,wj和ui为具有相同维度的向量。优选地,所述社交正则化项表示为:其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合优选地,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L2范数的约束,且满足||ui||2≤r。本专利技术还提供了一种基于社交媒体的词嵌入系统,包括:文本获取单元,用于获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;目标函数构建单元,用于根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;训练单元,用于根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;参数保存单元,用于保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。优选地,还包括:用户向量获取单元,用于获取每个用户在所述社交媒体上的好友用户的用户向量;社交正则化单元,用于根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;目标函数社交修正单元,用于利用所述社交正则化项对所述目标函数进行社交修正。优选地,所述社交正则化项表示为:其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合优选地,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L2范数的约束,且满足||ui||2≤r。本专利技术还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于社交媒体的词嵌入方法。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于社交媒体的词嵌入方法。在本专利技术实施例中,通过为每个用户定义一个用户向量,并结合用户自身的训练语料库进行训练得到训练后的用户向量及相应的单词的全局词向量。由于用户向量及单词的全局词向量是基于用户自身的训练语料库训练得到的,因而当用其去预测用户的新文本数据时,将会有比现有的直接使用全局词向量有更好的预测表现。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供基于社交媒体的词嵌入方法的流程示意图。图2是本专利技术实施例提供的基于社交媒体的词嵌入方法的原理示意图。图3是本专利技术实施例提供的CBOW模型的原理图。图4(a)是本专利技术实施例提供的在YelpR8数据集上,困惑度跟r和λ的关系变化图。图4(b)是本专利技术实施例提供的在YelpR9数据集上,困惑度跟r和λ的关系变化图。图4(c)是本专利技术实施例提供的在YelpR8和YelpR9数据集上,困惑度跟r的关系变化图。图5(a)是本专利技术实施例提供的在YelpR8数据集,不同情况下,主要用户的训练百分比与精度的关系变化图。图5(b)是本专利技术实施例提供的在YelpR8数据集,不同情况下,边缘用户的训练百分比与精度的关系变化图。图5(c)是本专利技术实施例提供的在YelpR9数据集,不同情况下,主要用户的训练百分比与精度的关系变化图。图5(d)是本专利技术实施例提供的在YelpR9数据集,不同情况下,边缘用本文档来自技高网
...
基于社交媒体的词嵌入方法、系统、终端设备及存储介质

【技术保护点】
一种基于社交媒体的词嵌入方法,其特征在于,包括如下步骤:获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;基于所述基本词嵌入模型,同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。

【技术特征摘要】
1.一种基于社交媒体的词嵌入方法,其特征在于,包括如下步骤:获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;基于所述基本词嵌入模型,同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。2.根据权利要求1所述的基于社交媒体的词嵌入方法,其特征在于,当所述基本词嵌入模型为CBOW模型时,所述目标函数表示为:其中,表示第i个用户ui的训练语料库,wj表示训练语料库中的第j个单词,C(wj,ui)表示ωj的上下文,长度由窗口参数决定。3.根据权利要求1所述的基于社交媒体的词嵌入方法,其特征在于,在根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数之后,在所述基本词嵌入模型中,根据每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练之前,还包括:获取每个用户在所述社交媒体上的好友用户的用户向量;根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;利用所述社交正则化项对所述目标函数进行社交修正。4.根据权利要求1所述的基于社交媒体的词嵌入方法,其特征在于,对于与用户ui对应的训练语料库中的第j个单词wj,其个性化词向量表示为:其中,wj为wj的全局词向量,ui为用户ui的用户向量,wj和ui为具有相同维度的向量。5.根据权利要求3所述的基于社交媒体的词嵌入方法,其特征在于,所述社交正则化项表示为:其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合6.根据权利要求5所述的基于社交媒体的词嵌入方法,其特征在于,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:其中,为社交修正前的目标函数,...

【专利技术属性】
技术研发人员:曾子倩尹伊淳宋阳秋张铭
申请(专利权)人:广州市香港科大霍英东研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1