同义词挖掘方法、同义词挖掘装置及存储介质制造方法及图纸

技术编号:23765881 阅读:35 留言:0更新日期:2020-04-11 19:48
一种同义词挖掘方法、同义词挖掘装置及存储介质。该同义词挖掘方法包括:对输入的语料数据进行识别处理,以得到至少一个类别的命名实体集合;对每个类别的命名实体集合进行聚类处理,以得到每个类别对应的同义词候选集合;以及,基于词形相似度和上下文相似度,对每个类别对应的同义词候选集合进行过滤处理,以得到每个类别对应的同义词集合。该同义词挖掘方法可以基于词形相似度和上下文相似度,对聚类处理得到的同义词候选集合进行过滤处理,从而可以提升得到的同义词集合的纯度,进一步地,基于挖掘的同义词集合可以构建同义词词典,将其应用于自然语言处理领域时,可以提高知识点过滤、关键词提取、文本分类、语义聚类等任务的准确性。

Synonym mining method, synonym mining device and storage medium

【技术实现步骤摘要】
同义词挖掘方法、同义词挖掘装置及存储介质
本公开的实施例涉及一种同义词挖掘方法、同义词挖掘装置及存储介质。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)领域是计算机科学、人工智能和信息工程的交叉领域,涉及统计学、语言学等的知识,其目标是让计算机处理或“理解”自然语言,以执行文本分类、语言翻译和问题回答等任务。词语作为自然语言的基础元素,在自然语言处理中起着关键作用。
技术实现思路
本公开至少一个实施例提供一种同义词挖掘方法,包括:对输入的语料数据进行识别处理,以得到至少一个类别的命名实体集合;对每个类别的所述命名实体集合进行聚类处理,以得到每个类别对应的同义词候选集合;以及,基于词形相似度和上下文相似度,对每个类别对应的所述同义词候选集合进行过滤处理,以得到每个类别对应的同义词集合。例如,在本公开一些实施例提供的同义词挖掘方法中,所述同义词候选集合包括多个同义词候选簇,每个所述同义词候选簇包括多个命名实体;对所述同义词候选集合进行所述过滤处理,包括:对每个所述同义词候选簇中的所述多个命名实体进行所述过滤处理。例如,在本公开一些实施例提供的同义词挖掘方法中,对每个所述同义词候选簇中的所述多个命名实体进行所述过滤处理,包括:对所述同义词候选簇中的所述多个命名实体进行随机排序,得到排序后的候选簇集合{ei},其中,ei表示第i个命名实体,i为整数且1≤i≤K,K为所述同义词候选簇中的所述命名实体的数量;将第1个命名实体e1作为第1个子簇;以及,判断第m个命名实体em能否加入现有的n个子簇之一,若所述第m个命名实体em能够加入某一现有的子簇,则将所述第m个命名实体em加入该现有的子簇,若所述第m个命名实体em不能加入任一现有的子簇,则将所述第m个命名实体em作为1个新的子簇,其中,m依次取值2,3,…,K,n为判断所述第m个命名实体之时现有的子簇的数量。例如,在本公开一些实施例提供的同义词挖掘方法中,判断所述第m个命名实体em能否加入所述现有的n个子簇之一,包括:判断所述第m个命名实体em能否加入现有的第j个子簇,其中,j依次取值1,2,…,n;判断所述第m个命名实体em能否加入所述现有的第j个子簇,包括:计算所述第m个命名实体em与所述现有的第j个子簇中的各个命名实体的词形相似度和上下文相似度,若所述现有的第j个子簇中与所述第m个命名实体em的词形相似度和上下文相似度满足预定关系的命名实体的占比达到预定比例阈值,则所述第m个命名实体em能够加入所述第j个子簇,否则,所述第m个命名实体em不能加入所述第j个子簇。例如,在本公开一些实施例提供的同义词挖掘方法中,所述预定关系表示为:(S1(ea,eb))2+(S2(ea,eb))2≥1其中,S1(ea,eb)表示任意两个命名实体ea和eb的词形相似度,S2(ea,eb)表示所述任意两个命名实体ea和eb的上下文相似度。例如,在本公开一些实施例提供的同义词挖掘方法中,所述任意两个命名实体ea和eb的词形相似度表示为:其中,S1(ea,eb)表示所述词形相似度,dis(ea,eb)表示所述两个命名实体ea和eb之间的最小编辑距离,len(ea)表示所述命名实体ea的字长,len(eb)表示所述命名实体ea的字长,max(len(ea),len(eb))表示len(ea)和len(eb)中的较大者。例如,在本公开一些实施例提供的同义词挖掘方法中,所述任意两个命名实体ea和eb的上下文相似度表示为:其中,S2(ea,eb)表示所述上下文相似度,p(eb|ea)表示由所述命名实体ea生成所述命名实体eb的概率,p(ea|eb)表示由所述命名实体eb生成所述命名实体ea的概率。例如,在本公开一些实施例提供的同义词挖掘方法中,所述命名实体ea生成所述命名实体eb的概率p(eb|ea)和所述命名实体eb生成所述命名实体ea的概率p(ea|eb)分别表示为:其中C(ea)表示所述命名实体ea的上下文信息集合,u表示C(ea)中的词元素,p(u|ea)表示由所述命名实体ea生成所述词元素u的概率,p(eb|u)表示由所述词元素u生成所述命名实体eb的概率,C(eb)表示所述命名实体eb的上下文信息集合,v表示C(eb)中的词元素,p(v|eb)表示由所述命名实体eb生成所述词元素v的概率,p(ea|v)表示由所述词元素v生成所述命名实体ea的概率。例如,在本公开一些实施例提供的同义词挖掘方法中,所述命名实体ea生成所述词元素u的概率p(u|ea)、所述词元素u生成所述命名实体eb的概率p(eb|u)、所述命名实体eb生成所述词元素v的概率p(v|eb)和所述词元素v生成所述命名实体ea的概率p(ea|v)分别表示为:其中,C(ea)表示所述命名实体ea的上下文信息集合,C(eb)表示所述命名实体eb的上下文信息集合,u表示C(ea)中的词元素,v表示C(eb)中的词元素,count(ea)表示所述语料数据中包括所述命名实体ea的语句的数量,count(eb)表示所述语料数据中包括所述命名实体eb的语句的数量,count(u)表示所述语料数据中包括所述词元素u的语句的数量,count(v)表示所述语料数据中包括所述词元素v的语句的数量,count(u,ea)表示所述语料数据中同时包括所述词元素u和所述命名实体ea的语句的数量,count(eb,u)表示所述语料数据中同时包括所述命名实体eb和所述词元素u的语句的数量,count(v,eb)表示所述语料数据中同时包括所述词元素v和所述命名实体eb的语句的数量,count(ea,v)表示所述语料数据中同时包括所述命名实体ea和所述词元素v的语句的数量。例如,在本公开一些实施例提供的同义词挖掘方法中,所述预定比例阈值为70%~90%。例如,在本公开一些实施例提供的同义词挖掘方法中,在对输入的所述语料数据进行所述识别处理之前,所述同义词挖掘方法还包括:对所述语料数据进行断句处理,以将所述语料数据划分为多个语句。例如,在本公开一些实施例提供的同义词挖掘方法中,对输入的所述语料数据进行所述识别处理,包括:基于所述多个语句,采用条件随机场模型和最大熵马尔科夫模型之一进行所述识别处理。例如,在本公开一些实施例提供的同义词挖掘方法中,在对输入的所述语料数据进行所述识别处理之前,所述同义词挖掘方法还包括:对所述语料数据进行错别字纠正处理,以纠正所述语料数据中的错别字。例如,在本公开一些实施例提供的同义词挖掘方法中,对每个类别的所述命名实体集合进行所述聚类处理,包括:基于所述命名实体集合中的全部命名实体,对所述语料数据进行分词并去除停用词,以收集得到每个所述命名实体的上下文信息集合;对所述命名实体集合中的全部所述命名实体的上下文信息集合进行合并,以得到所述命名实体集合的整体上下文信息集合;基于所述命名实体集合本文档来自技高网...

【技术保护点】
1.一种同义词挖掘方法,包括:/n对输入的语料数据进行识别处理,以得到至少一个类别的命名实体集合;/n对每个类别的所述命名实体集合进行聚类处理,以得到每个类别对应的同义词候选集合;以及/n基于词形相似度和上下文相似度,对每个类别对应的所述同义词候选集合进行过滤处理,以得到每个类别对应的同义词集合。/n

【技术特征摘要】
1.一种同义词挖掘方法,包括:
对输入的语料数据进行识别处理,以得到至少一个类别的命名实体集合;
对每个类别的所述命名实体集合进行聚类处理,以得到每个类别对应的同义词候选集合;以及
基于词形相似度和上下文相似度,对每个类别对应的所述同义词候选集合进行过滤处理,以得到每个类别对应的同义词集合。


2.根据权利要求1所述的同义词挖掘方法,其中,所述同义词候选集合包括多个同义词候选簇,每个所述同义词候选簇包括多个命名实体;
对所述同义词候选集合进行所述过滤处理,包括:
对每个所述同义词候选簇中的所述多个命名实体进行所述过滤处理。


3.根据权利要求2所述的同义词挖掘方法,其中,对每个所述同义词候选簇中的所述多个命名实体进行所述过滤处理,包括:
对所述同义词候选簇中的所述多个命名实体进行随机排序,得到排序后的候选簇集合{ei},其中,ei表示第i个命名实体,i为整数且1≤i≤K,K为所述同义词候选簇中的所述命名实体的数量;
将第1个命名实体e1作为第1个子簇;以及
判断第m个命名实体em能否加入现有的n个子簇之一,若所述第m个命名实体em能够加入某一现有的子簇,则将所述第m个命名实体em加入该现有的子簇,若所述第m个命名实体em不能加入任一现有的子簇,则将所述第m个命名实体em作为1个新的子簇,
其中,m依次取值2,3,…,K,n为判断所述第m个命名实体之时现有的子簇的数量。


4.根据权利要求3所述的同义词挖掘方法,其中,判断所述第m个命名实体em能否加入所述现有的n个子簇之一,包括:
判断所述第m个命名实体em能否加入现有的第j个子簇,其中,j依次取值1,2,…,n;
判断所述第m个命名实体em能否加入所述现有的第j个子簇,包括:
计算所述第m个命名实体em与所述现有的第j个子簇中的各个命名实体的词形相似度和上下文相似度,若所述现有的第j个子簇中与所述第m个命名实体em的词形相似度和上下文相似度满足预定关系的命名实体的占比达到预定比例阈值,则所述第m个命名实体em能够加入所述第j个子簇,否则,所述第m个命名实体em不能加入所述第j个子簇。


5.根据权利要求4所述的同义词挖掘方法,其中,所述预定关系表示为:
(S1(ea,eb))2+(S2(ea,eb))2≥1
其中,S1(ea,eb)表示任意两个命名实体ea和eb的词形相似度,S2(ea,eb)表示所述任意两个命名实体ea和eb的上下文相似度。


6.根据权利要求5所述的同义词挖掘方法,其中,所述任意两个命名实体ea和eb的词形相似度表示为:



其中,S1(ea,eb)表示所述词形相似度,dis(ea,eb)表示所述两个命名实体ea和eb之间的最小编辑距离,len(ea)表示所述命名实体ea的字长,len(eb)表示所述命名实体ea的字长,max(len(ea),len(eb))表示len(ea)和len(eb)中的较大者。


7.根据权利要求6所述的同义词挖掘方法,其中,所述任意两个命名实体ea和eb的上下文相似度表示为:



其中,S2(ea,eb)表示所述上下文相似度,p(eb|ea)表示由所述命名实体ea生成所述命名实体eb的概率,p(ea|eb)表示由所述命名实体eb生成所述命名实体ea的概率。


8.根据权利要求7所述的同义词挖掘方法,其中,所述命名实体ea生成所述命名实体eb的概率p(eb|ea)和所述命名实体eb生成所述命名实体ea的概率p(ea|eb)分别表示为:






其中C(ea)表示所述命名实体ea的上下文信息集合,u表示C(ea)中的词元素,p(u|ea)表示由所述命名实体ea生成所述词元素u的概率,p(eb|u)表示由所述词元素u生成所述命名实体eb的概率,C(eb)表示所述命名实体eb的上下文信息集合,v表示C(eb)中的词元素,p(v|eb)表示由所述命名实体eb生成所述词元素v的概率,p(ea|v)表示由所述词元素v生成所述命名实体ea的概率。


9.根据权利要求8所述的同义词挖掘方法,其中,所述命名实体ea生成所述词元素u的概率p(u|ea)、所述词元素u生成所述命名实体eb的概率p(eb|u)、所述命名实体eb生成所述词元素v的概率p(v|eb)和所述词元素v生成所述命名实体ea的概率p(ea|v)分别表示为:












其中,count(ea)表示所述语料数据中包括所述命名实体ea的语句的数量,count(eb)表示所述语料数据中包括所述命名实体eb的语句的数量,count(u)表示所述语料数据中包括所述词元素u的语句的数量,count(v)表示所述语料数据中包括所述词元素v的语句的数量,count(u,ea)表示所述语料数据中同时包括所述词元素u和所述命名...

【专利技术属性】
技术研发人员:张振中
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1