词语相似度计算方法及装置制造方法及图纸

技术编号：14874735 阅读：54 留言：0更新日期：2017-03-23 22:27

本发明专利技术提供了一种词语相似度计算方法及装置。所述词语相似度计算方法包括：收集未标注的词典，对所述词典中的词语进行处理，得到待标注词语对；将所述待标注词语对呈现给标注者，供标注者阅读，采集标注者阅读所述待标注词语对时的脑电信号；对采集到的脑电信号进行处理，基于处理后的脑电信号对相应的词语对进行相似度标注，构建基于脑电信号标注的词语相似度语料库。本发明专利技术提供的词语相似度计算方法及装置提高了词语相似度计算的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理
，尤其涉及一种词语相似度计算方法及装置。
技术介绍
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用，它是自然语言的基础研究课题，正在被越来越多的研究人员所关注。目前，最常用的词语相似度计算方法是基于语义词典的词语相似度计算。常用的语义词典：在英文方面，具有代表性的有WordNet，FrameNet，MindNet等；在汉语方面，有“知网”(HowNet)，“同义词词林”，“中文概念词典”(CCD：ChineseConceptDictionary)等。该算法即根据同义词词林的编排及语义特点计算两个词语之间的相似度。在传统的语义词典构建过程中，获取词语相似度的方法通常是人工标注。这种方法的主要缺陷有以下三点：1、为保证语义词典标注准确性，需要对每一位参加标注的工作人员进行大量的领域相关知识和标注规范的培训，这些培训将消耗大量的时间和资金；同时由于缺乏词语相似度的系统标注规范，在培训结束后也很难保证标注人员能准确高效地对词语相似度语料进行标注。2、由于标注者常常具有不同的语言认识，这将导致不同标注者对同一语料标注时会出现不同甚至是相反的结果。出现这种情况时，通常需要标注者一起讨论决定最终的标注结果，这一过程往往会消耗标注人员大量的时间与精力，最终会严重拖慢标注进程。3、由于人类语言理解机制的复杂性，标注者往往很难对自然语言中的词语对准确地判别其相似度，这通常表现在同一标注者在不同时间标注同一语料时也会出现前后矛盾的情况。
技术实现思路
本专利技术的目的在于提供一种词语相...
词语相似度计算方法及装置

【技术保护点】
一种词语相似度计算方法，其特征在于，所述方法包括以下步骤：步骤S1，收集未标注的词典，对所述词典中的词语进行处理，得到待标注词语对；步骤S2，将所述待标注词语对呈现给标注者，供标注者阅读，采集标注者阅读所述待标注词语对时的脑电信号；步骤S3，对采集到的脑电信号进行处理，基于处理后的脑电信号对相应的词语进行相似度标注，构建基于脑电信号标注的词语相似度语料库。

【技术特征摘要】
1.一种词语相似度计算方法，其特征在于，所述方法包括以下步骤：步骤S1，收集未标注的词典，对所述词典中的词语进行处理，得到待标注词语对；步骤S2，将所述待标注词语对呈现给标注者，供标注者阅读，采集标注者阅读所述待标注词语对时的脑电信号；步骤S3，对采集到的脑电信号进行处理，基于处理后的脑电信号对相应的词语进行相似度标注，构建基于脑电信号标注的词语相似度语料库。2.根据权利要求1所述的词语相似度计算方法，其特征在于，所述步骤S1包括：选取已有的词典中的词语为待标注词语，对所述待标注词语进行一对一组合构成待标注词语对。3.根据权利要求1所述的词语相似度计算方法，其特征在于，所述步骤S2包括：将同一词语对多次间隔呈现给标注者，供标注者阅读，采集标注者每次阅读所述同一词语对时的脑电信号，将采集到的标注者每次阅读所述同一词语对时的脑电信号与相应的词语对成对存储。4.根据权利要求3所述的词语相似度计算方法，其特征在于，所述步骤S3包括以下子步骤：步骤S31，对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理，得到降噪后的脑电信号；步骤S32，对所述降噪后的脑电信号进行叠加平均处理，得到事件相关电位，根据所述事件相关电位判断相应词语的相似度，依此原理，获得词典中所有词语的相似度；步骤S33，计算词典中所有词语的相似度的平均值及方差，根据所述平均值及方差对词典中所有词语的相似度进行归一化处理，得到最终的词语相似度。5.根据权利要求4所述的基于脑电信号的词向量计算方法，其特征在于，所述步骤S31中采用FASTICA算法对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理，得到降...

【专利技术属性】
技术研发人员：徐睿峰，杜嘉晨，桂林，陆勤，
申请(专利权)人：哈尔滨工业大学深圳研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人