【技术实现步骤摘要】
语义分析方法及系统
本专利技术涉及计算机领域,特别涉及一种语义分析方法及系统。
技术介绍
在目前的网络活动中,用户常常会通过关键字词来搜索自己感兴趣的信息,比如, 用户在搜索引擎中输入关键字词,搜索引擎通过关键字匹配算法来检索诸如图片、视频和 链接之类的信息。然而,从自然语言的角度来说,大部分词具有一词多义的特点,一个词除 了表达本意之外,还可能具有其它的隐含语义,仅通过关键字匹配的搜索方法无法为用户 提供更精确的服务。 为了提高匹配结果的相关性,近年来兴起一种基于隐含语义的索引方式,其检索 结果的实际效果更接近于人的自然语言。而要实现基于隐含语义的索引,首先需要进行隐 含语义分析,以大样本数量的统计分析找出不同的词之间的相关性。 现有的语义分析方法主要包括如下步骤:1)获取训练语料,该训练语料中包括多 个训练文档,每个训练文档中包括至少两个词;2)对训练语料进行迭代采样,输出最终收敛 的采样模型;3)对输出的采样模型进行分析。具体请参见图1,其示出了本专利技术现有技术提 供的语义分析系统的架构图,该语义分析系统包括多个训练进程和多个模型进程。其中,训 练进程用于加载训练文档,从模型进程获取上一轮采样获得的采样模型,并根据获取到的 采样模型对加载的训练文档进行采样,最后向模型进程输出本轮采样获得的采样模型。训 练进程和模型进程之间通过交换词的主题分布向量来进行通信。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题: 现有的语义分析方法中,当要分析的隐含语义很多时,对单进程的内存要求较高, 训练效 ...
【技术保护点】
一种语义分析方法,其特征在于,所述方法包括:获取训练语料,所述训练语料中包括N个训练文档,每个所述训练文档中包括至少两个词;按照文档维度和词维度将所述训练语料切分成a*M*M个数据块,其中,a为大于等于1的整数,且a*M小于所述训练文档的个数N,N≥2;对切分出的所述a*M*M个数据块进行迭代采样,输出最终收敛的采样模型;根据所述最终收敛的采样模型进行语义分析。
【技术特征摘要】
1. 一种语义分析方法,其特征在于,所述方法包括: 获取训练语料,所述训练语料中包括N个训练文档,每个所述训练文档中包括至少两 个词; 按照文档维度和词维度将所述训练语料切分成a*M*M个数据块,其中,a为大于等于1 的整数,且a*M小于所述训练文档的个数N,N彡2 ; 对切分出的所述a*M*M个数据块进行迭代采样,输出最终收敛的采样模型; 根据所述最终收敛的采样模型进行语义分析。2. 根据权利要求1所述的方法,其特征在于,所述按照文档维度和词维度将所述训练 语料切分成a*M*M个数据块,包括: 将所述训练语料中的所有文档切分成a*M个文档组; 将每一个所述文档组中的词分别切分至M个数据块。3. 根据权利要求2所述的方法,其特征在于,所述将每一个所述文档组中的词分别切 分至M个数据块,包括: 将每一个所述文档组中的词随机切分至与所述文档组对应的M个数据块中的一个数 据块。4. 根据权利要求2所述的方法,其特征在于,所述将每一个所述文档组中的词分别切 分至M个数据块,包括: 统计所述训练语料中每一个词的出现频次; 将每一个所述文档组中的词按照所述出现频次从高到低的顺序进行排序; 分别将每一个所述文档组中的词按照排序结果依次切分至所述文档组对应的M个数 据块中预定频次最小的数据块中,所述预定频次是当前数据块中已划分有的各个词各自的 出现频次之和。5. 根据权利要求1至4任一所述的方法,其特征在于,所述对切分出的所述a*M*M个数 据块进行迭代采样,包括: 将所述a*M*M个数据块切分成a个M*M数据块阵列,每个所述M*M数据块阵列中包含 有M行XM列的数据块; 在每一次迭代采样时进行a次分组采样,每次分组采样时对所述a个M*M数据块阵列 中的一个进行采样。6. 根据权利要求5所述的方法,其特征在于,所述在每一次迭代采样时进行a次分组采 样,每次分组采样时对所述a个M*M数据块阵列中的一个进行采样,包括: 在第1次迭代采样中,每次分组采样时,通过M个数据进程加载对应的一个M*M数据块 阵列;其中,每个所述数据进程加载所述对应的M*M数据块阵列中的一个数据块行; 每次分组采样时,通过M个采样进程对所述加载的M*M数据块阵列中的数据块按列进 行采样;其中,每个所述采样进程采样所述加载的M*M数据块阵列中的一个数据块列; a次分组采样后,通过控制进程输出所述M个采样进程的第1次采样结果;所述第1次 采样结果中包含有第1次采样模型和第1次更新后的a个M*M数据块阵列。7. 根据权利要求6所述的方法,其特征在于,所述通过M个采样进程对所述加载的数据 块阵列中的数据块按列进行采样,包括: 通过所述M个采样进程为各自采样的数据块中的词随机分配用于采样的主题号; 或者, 通过所述M个采样进程根据已有的、最终收敛的采样模型为各自采样的数据块中的词 分配用于采样的主题号。8. 根据权利要求5所述的方法,其特征在于,所述在每一次迭代采样时进行a次分组采 样,每次分组采样时对所述a个M*M数据块阵列中的一个进行采样,包括: 在第n次迭代采样中,每次分组采样时,通过所述M个数据进程加载对应的、第n-1次 更新后的一个M*M数据块阵列;其中,每个所述数据进程加载所述第n-1次更新后的M*M数 据块阵列中的一个数据块行,n > 2 ; 每次分组采样时,通过所述M个采样进程对所述加载的、第n-1次更新后的M*M数据块 阵列中的数据块按列进行采样;其中,每个所述采样进程采样所述加载的、第n-1次更新后 的M*M数据块阵列中的一个数据块列; a次分组采样后,通过所述控制进程输出所述M个采样进程的第n次采样结果;所述第 n次采样结果中包含有第n次采样模型和第n次更新后的a个M*M数据块阵列。9. 根据权利要求8所述的方法,其特征在于,所述每次分组采样时对所述a个M*M数据 块阵列中的一个进行采样,包括: 每次分组采样时,通过所述M个采样进程对各自对应的数据块列中的数据块进行M轮 并行采样,每轮并行采样中所述M个采样进程各自采集所述M*M数据块阵列中不同行且不 同列的一个数据块。10. 根据权利要求9所述的方法,其特征在于,所述通过所述M个采样进程对各自对应 的M*M数据块列中的数据块进行M轮并行采样,包括: 每次分组采样时,在第i轮并行采样中,通过第j个采样进程采样所述M个数据进程当 前加载的M*M数据块阵列中,坐标为(的数据块; 其中,1彡i彡M,1彡j彡M。11. 根据权利要求9所述的方法,其特征在于,所述每次分组采样时对所述a个M*M数 据块阵列中的一个进行采样,还包括: 在每一次迭代采样中,每次分组采样时,在所述M个采样进程对各自对应的数据块列 中的数据块进行一轮并行采样后,对所述M个采样进程进行采样时间上的同步; 或者, 在每一次迭代采样时中,每次分组采样时,在所述M个采样进程对各自对应的数据块 列中的数据块进行M轮并行采样后,对所述M个采样进程进行采样时间上的同步。12. 根据权利要求6至11任一所述的方法,其特征在于,所述M个数据进程和所述M个 采样进程之间通过传输训练文档包进行通信。13. -种语义...
【专利技术属性】
技术研发人员:王益,赵学敏,孙振龙,严浩,王莉峰,靳志辉,王流斌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。