语义分析方法及系统技术方案

技术编号：11039892 阅读：158 留言：0更新日期：2015-02-12 02:39

本发明专利技术公开了一种语义分析方法，属于计算机领域。所述方法包括：获取训练语料；按照文档维度和词维度将所述训练语料切分成a*M*M个数据块；对切分出的所述a*M*M个数据块进行迭代采样，输出最终收敛的采样模型；根据所述最终收敛的采样模型进行语义分析。本发明专利技术通过将获取到的训练语料切分成a*M*M个数据块，对切分出的数据块进行迭代采样，输出最终收敛的采样模型，根据输出的最终收敛的采样模型进行分析。由于切分获得的数据块可以分别单独进行采样，从而可以降低单进程的内存需求，解决了现有技术中当要训练的隐含语义较多时对单进程的内存要求较高的问题，达到提高训练效率的目的。

全部详细技术资料下载

【技术实现步骤摘要】
语义分析方法及系统
本专利技术涉及计算机领域，特别涉及一种语义分析方法及系统。
技术介绍
在目前的网络活动中，用户常常会通过关键字词来搜索自己感兴趣的信息，比如，用户在搜索引擎中输入关键字词，搜索引擎通过关键字匹配算法来检索诸如图片、视频和链接之类的信息。然而，从自然语言的角度来说，大部分词具有一词多义的特点，一个词除了表达本意之外，还可能具有其它的隐含语义，仅通过关键字匹配的搜索方法无法为用户提供更精确的服务。为了提高匹配结果的相关性，近年来兴起一种基于隐含语义的索引方式，其检索结果的实际效果更接近于人的自然语言。而要实现基于隐含语义的索引，首先需要进行隐含语义分析，以大样本数量的统计分析找出不同的词之间的相关性。现有的语义分析方法主要包括如下步骤：1)获取训练语料，该训练语料中包括多个训练文档，每个训练文档中包括至少两个词；2)对训练语料进行迭代采样，输出最终收敛的采样模型；3)对输出的采样模型进行分析。具体请参见图1，其示出了本专利技术现有技术提供的语义分析系统的架构图，该语义分析系统包括多个训练进程和多个模型进程。其中，训练进程用于加载训练文档，从模型进程获取上一轮采样获得的采样模型，并根据获取到的采样模型对加载的训练文档进行采样，最后向模型进程输出本轮采样获得的采样模型。训练进程和模型进程之间通过交换词的主题分布向量来进行通信。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：现有的语义分析方法中，当要分析的隐含语义很多时，对单进程的内存要求较高，训练效...

【技术保护点】
一种语义分析方法，其特征在于，所述方法包括：获取训练语料，所述训练语料中包括N个训练文档，每个所述训练文档中包括至少两个词；按照文档维度和词维度将所述训练语料切分成a*M*M个数据块，其中，a为大于等于1的整数，且a*M小于所述训练文档的个数N，N≥2；对切分出的所述a*M*M个数据块进行迭代采样，输出最终收敛的采样模型；根据所述最终收敛的采样模型进行语义分析。

【技术特征摘要】
1. 一种语义分析方法，其特征在于，所述方法包括：获取训练语料，所述训练语料中包括N个训练文档，每个所述训练文档中包括至少两个词；按照文档维度和词维度将所述训练语料切分成a*M*M个数据块，其中，a为大于等于1 的整数，且a*M小于所述训练文档的个数N，N彡2 ; 对切分出的所述a*M*M个数据块进行迭代采样，输出最终收敛的采样模型；根据所述最终收敛的采样模型进行语义分析。2. 根据权利要求1所述的方法，其特征在于，所述按照文档维度和词维度将所述训练语料切分成a*M*M个数据块，包括：将所述训练语料中的所有文档切分成a*M个文档组；将每一个所述文档组中的词分别切分至M个数据块。3. 根据权利要求2所述的方法，其特征在于，所述将每一个所述文档组中的词分别切分至M个数据块，包括：将每一个所述文档组中的词随机切分至与所述文档组对应的M个数据块中的一个数据块。4. 根据权利要求2所述的方法，其特征在于，所述将每一个所述文档组中的词分别切分至M个数据块，包括：统计所述训练语料中每一个词的出现频次；将每一个所述文档组中的词按照所述出现频次从高到低的顺序进行排序；分别将每一个所述文档组中的词按照排序结果依次切分至所述文档组对应的M个数据块中预定频次最小的数据块中，所述预定频次是当前数据块中已划分有的各个词各自的出现频次之和。5. 根据权利要求1至4任一所述的方法，其特征在于，所述对切分出的所述a*M*M个数据块进行迭代采样，包括：将所述a*M*M个数据块切分成a个M*M数据块阵列，每个所述M*M数据块阵列中包含有M行XM列的数据块；在每一次迭代采样时进行a次分组采样，每次分组采样时对所述a个M*M数据块阵列中的一个进行采样。6. 根据权利要求5所述的方法，其特征在于，所述在每一次迭代采样时进行a次分组采样，每次分组采样时对所述a个M*M数据块阵列中的一个进行采样，包括：在第1次迭代采样中，每次分组采样时，通过M个数据进程加载对应的一个M*M数据块阵列；其中，每个所述数据进程加载所述对应的M*M数据块阵列中的一个数据块行；每次分组采样时，通过M个采样进程对所述加载的M*M数据块阵列中的数据块按列进行采样；其中，每个所述采样进程采样所述加载的M*M数据块阵列中的一个数据块列； a次分组采样后，通过控制进程输出所述M个采样进程的第1次采样结果；所述第1次采样结果中包含有第1次采样模型和第1次更新后的a个M*M数据块阵列。7. 根据权利要求6所述的方法，其特征在于，所述通过M个采样进程对所述加载的数据块阵列中的数据块按列进行采样，包括：通过所述M个采样进程为各自采样的数据块中的词随机分配用于采样的主题号；或者，通过所述M个采样进程根据已有的、最终收敛的采样模型为各自采样的数据块中的词分配用于采样的主题号。8. 根据权利要求5所述的方法，其特征在于，所述在每一次迭代采样时进行a次分组采样，每次分组采样时对所述a个M*M数据块阵列中的一个进行采样，包括：在第n次迭代采样中，每次分组采样时，通过所述M个数据进程加载对应的、第n-1次更新后的一个M*M数据块阵列；其中，每个所述数据进程加载所述第n-1次更新后的M*M数据块阵列中的一个数据块行，n > 2 ; 每次分组采样时，通过所述M个采样进程对所述加载的、第n-1次更新后的M*M数据块阵列中的数据块按列进行采样；其中，每个所述采样进程采样所述加载的、第n-1次更新后的M*M数据块阵列中的一个数据块列； a次分组采样后，通过所述控制进程输出所述M个采样进程的第n次采样结果；所述第 n次采样结果中包含有第n次采样模型和第n次更新后的a个M*M数据块阵列。9. 根据权利要求8所述的方法，其特征在于，所述每次分组采样时对所述a个M*M数据块阵列中的一个进行采样，包括：每次分组采样时，通过所述M个采样进程对各自对应的数据块列中的数据块进行M轮并行采样，每轮并行采样中所述M个采样进程各自采集所述M*M数据块阵列中不同行且不同列的一个数据块。10. 根据权利要求9所述的方法，其特征在于，所述通过所述M个采样进程对各自对应的M*M数据块列中的数据块进行M轮并行采样，包括：每次分组采样时，在第i轮并行采样中，通过第j个采样进程采样所述M个数据进程当前加载的M*M数据块阵列中，坐标为（的数据块；其中，1彡i彡M，1彡j彡M。11. 根据权利要求9所述的方法，其特征在于，所述每次分组采样时对所述a个M*M数据块阵列中的一个进行采样，还包括：在每一次迭代采样中，每次分组采样时，在所述M个采样进程对各自对应的数据块列中的数据块进行一轮并行采样后，对所述M个采样进程进行采样时间上的同步；或者，在每一次迭代采样时中，每次分组采样时，在所述M个采样进程对各自对应的数据块列中的数据块进行M轮并行采样后，对所述M个采样进程进行采样时间上的同步。12. 根据权利要求6至11任一所述的方法，其特征在于，所述M个数据进程和所述M个采样进程之间通过传输训练文档包进行通信。13. -种语义...

【专利技术属性】
技术研发人员：王益，赵学敏，孙振龙，严浩，王莉峰，靳志辉，王流斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人