本发明专利技术提供了一种词语相似度计算方法及装置。所述词语相似度计算方法包括:收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语对进行相似度标注,构建基于脑电信号标注的词语相似度语料库。本发明专利技术提供的词语相似度计算方法及装置提高了词语相似度计算的准确性。
【技术实现步骤摘要】
本专利技术属于自然语言处理
,尤其涉及一种词语相似度计算方法及装置。
技术介绍
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是自然语言的基础研究课题,正在被越来越多的研究人员所关注。目前,最常用的词语相似度计算方法是基于语义词典的词语相似度计算。常用的语义词典:在英文方面,具有代表性的有WordNet,FrameNet,MindNet等;在汉语方面,有“知网”(HowNet),“同义词词林”,“中文概念词典”(CCD:ChineseConceptDictionary)等。该算法即根据同义词词林的编排及语义特点计算两个词语之间的相似度。在传统的语义词典构建过程中,获取词语相似度的方法通常是人工标注。这种方法的主要缺陷有以下三点:1、为保证语义词典标注准确性,需要对每一位参加标注的工作人员进行大量的领域相关知识和标注规范的培训,这些培训将消耗大量的时间和资金;同时由于缺乏词语相似度的系统标注规范,在培训结束后也很难保证标注人员能准确高效地对词语相似度语料进行标注。2、由于标注者常常具有不同的语言认识,这将导致不同标注者对同一语料标注时会出现不同甚至是相反的结果。出现这种情况时,通常需要标注者一起讨论决定最终的标注结果,这一过程往往会消耗标注人员大量的时间与精力,最终会严重拖慢标注进程。3、由于人类语言理解机制的复杂性,标注者往往很难对自然语言中的词语对准确地判别其相似度,这通常表现在同一标注者在不同时间标注同一语料时也会出现前后矛盾的情况。
技术实现思路
本专利技术的目的在于提供一种词语相似度计算方法及系统,旨在提高词语相似度计算的准确性。本专利技术是这样实现的,一种词语相似度计算方法,所述方法包括以下步骤:步骤S1,收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;步骤S2,将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;步骤S3,对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语对进行相似度标注,构建基于脑电信号标注的词语相似度语料库。本专利技术的进一步的技术方案是,所述步骤S1包括:选取已有的词典中的词语为待标注词语,对所述待标注词语进行一对一组合构成待标注词语对。本专利技术的进一步的技术方案是,所述步骤S2包括:将同一词语对多次间隔呈现给标注者,供标注者阅读,采集标注者每次阅读所述同一词语对时的脑电信号,将采集到的标注者每次阅读所述同一词语对时的脑电信号与相应的词语对成对存储。本专利技术的进一步的技术方案是,所述步骤S3包括以下子步骤:步骤S31,对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理,得到降噪后的脑电信号;步骤S32,对所述降噪后的脑电信号进行叠加平均处理,得到事件相关电位,根据所述事件相关电位判断所述词语对的相似度,依此原理,获得词典中所有词语对的相似度;步骤S33,计算词典中所有词语对的相似度的平均值及方差,根据所述平均值及方差对词典中所有词语对的相似度进行归一化处理,得到最终的词语相似度。本专利技术的进一步的技术方案是,所述步骤S31中采用FASTICA算法对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理,得到降噪后的脑电信号。本专利技术还提供了一种词语相似度计算装置,所述装置包括:收集模块,用于收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;采集模块,用于将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;构建模块,用于对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语对进行相似度标注,构建基于脑电信号标注的词语相似度语料库。本专利技术的进一步的技术方案是,所述收集模块还用于:选取已有的词典中的词语为待标注词语,对所述待标注词语进行一对一组合构成待标注词语对。本专利技术的进一步的技术方案是,所述采集模块还用于:将同一词语对多次呈现给标注者,供标注者阅读,采集标注者每次阅读所述同一词语对时的脑电信号,将采集到的标注者每次阅读所述同一词语对时的脑电信号与相应的词语对成对存储。本专利技术的进一步的技术方案是,所述构建模块包括:降噪单元,用于对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理,得到降噪后的脑电信号;叠加平均处理单元,对所述降噪后的脑电信号进行叠加平均处理,得到事件相关电位,根据所述事件相关电位判断所述词语对的相似度,依此原理,获得词典中所有词语对的相似度;归一化处理单元,计算词典中所有词语对的相似度的平均值及方差,根据所述平均值及方差对词典中所有词语对的相似度进行归一化处理,得到最终的词语相似度。。本专利技术的进一步的技术方案是,所述降噪单元还用于采用FASTICA算法对所述采集到的脑电信号进行降噪处理。本专利技术的有益效果是:本专利技术提供的词语相似度计算方法及装置,通过上述方案:收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;对采集到的脑电信号进行分析,基于分析后的脑电信号对相应的词语对进行相似度标注,构建脑电信号标注的词语相似度语料库,提高了词语相似度计算的准确性。附图说明图1是本专利技术本专利技术词语相似度计算方法较佳实施例的流程示意图;图2是本专利技术词语相似度计算方法步骤S3的细化流程示意图;图3是本专利技术词语相似度计算装置较佳实施例功能模块示意图;图4是本专利技术词语相似度计算装置构建模块的细化功能模块示意图。附图标记:收集模块-10;采集模块-20;构建模块-30:降噪单元-301;叠加处理单元-302;归一化处理单元-303。具体实施方式本专利技术实施例的解决方案主要是:收集未标注的词典,对词典中的词语进行处理,得到待标注词语对;将待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读待标注词语对时的脑电信号;对采集到的脑电信号进行分析,基于分析后的脑电信号对相应的词语对进行相似度标注,构建脑电信号标注的词语相似度语料库。请参照图1,图1是本专利技术词语相似度计算方法较佳实施例的流程示意图,如图1所示,本专利技术词语相似度计算方法较佳实施例包括以下步骤:步骤S1,收集未标注的词典,对词典中的词语进行处理,得到待标注词语对;目前常用的词典有《现代汉语词典》、《现代汉语规范词典》以及《汉语大辞典》等,为了得到词语相似度,本实施例首先将词典中的词语进行一对一组合,构成待标注的词语对。其中待标注的词语对的个数计算公式为:M=N×(N-1)÷2,其中,M为词语对的个数,N为词典中词语的个数。步骤S2,将待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读待标注词语对时的脑电信号;目前,获取词语相似度的方法通常是采用人工标注的方法,采用人工标注的方法获取词语相似度,不仅会消耗大量的时间和资金,并且在不同的时间标注同一语料是也会出现前后矛盾的情形。而采用脑电信号计算词语相似度能从认知神经科学的角度真实反映标注者的情绪,具有很高的准确性。因此,本专利技术在计算词语相似度时需要标注者佩戴脑电采集装置,采集标注者阅读待标注词语对时的脑电信号。其中,标注者为佩戴脑电采集装置阅读待标注词语对的用户。步骤S3本文档来自技高网...
【技术保护点】
一种词语相似度计算方法,其特征在于,所述方法包括以下步骤:步骤S1,收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;步骤S2,将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;步骤S3,对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语进行相似度标注,构建基于脑电信号标注的词语相似度语料库。
【技术特征摘要】
1.一种词语相似度计算方法,其特征在于,所述方法包括以下步骤:步骤S1,收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;步骤S2,将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;步骤S3,对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语进行相似度标注,构建基于脑电信号标注的词语相似度语料库。2.根据权利要求1所述的词语相似度计算方法,其特征在于,所述步骤S1包括:选取已有的词典中的词语为待标注词语,对所述待标注词语进行一对一组合构成待标注词语对。3.根据权利要求1所述的词语相似度计算方法,其特征在于,所述步骤S2包括:将同一词语对多次间隔呈现给标注者,供标注者阅读,采集标注者每次阅读所述同一词语对时的脑电信号,将采集到的标注者每次阅读所述同一词语对时的脑电信号与相应的词语对成对存储。4.根据权利要求3所述的词语相似度计算方法,其特征在于,所述步骤S3包括以下子步骤:步骤S31,对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理,得到降噪后的脑电信号;步骤S32,对所述降噪后的脑电信号进行叠加平均处理,得到事件相关电位,根据所述事件相关电位判断相应词语的相似度,依此原理,获得词典中所有词语的相似度;步骤S33,计算词典中所有词语的相似度的平均值及方差,根据所述平均值及方差对词典中所有词语的相似度进行归一化处理,得到最终的词语相似度。5.根据权利要求4所述的基于脑电信号的词向量计算方法,其特征在于,所述步骤S31中采用FASTICA算法对采集到的标注者每次阅读所述同一词语对时的脑电信号进行降噪处理,得到降...
【专利技术属性】
技术研发人员:徐睿峰,杜嘉晨,桂林,陆勤,
申请(专利权)人:哈尔滨工业大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。