本发明专利技术提供了一种基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,在垂直网站上抓取评论数据并进行预处理;对评论数据中文分词;利用主题模型对词进行主题聚类,生成包含主题信息的文档主题词分布;对词集合中的所有词,使用基于深度学习的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的词;使用条件随机场该模型识别评论数据中的命名实体;根据步骤4主题聚类的聚类结果,构建不同主题下的词集合,计算文档和词集合的相似度,选取文档主题,得出文档中命名实体的语境含义,从而消除语义岐义。本发明专利技术实现了以比较高的可解释度和精确度来进行命名实体消歧,满足了特定领域且需要大量的知识库的要求。
【技术实现步骤摘要】
本专利技术属于互联网信息
,涉及命名实体消歧,具体是一种非监督的基于 语义的方法对命名实体进行语义消歧的技术。
技术介绍
随着互联网行业的快速发展,人们的生活越来越离不开互联网,人们利用互联网 搜索引擎搜索关注的信息,搜索商品信息,利用电商网站搜索想要购买的物品,搜索方面的 需求量逐渐增大,在情感分析领域,获取用户中的评论数据,词语的含义不仅影响分词和 命名实体的准确性,还影响情感分析的准确性。但是互联网的快速发展和中文本身的特点 给这些操作带来了困难,由于中文存在很多近义词和多义词,对这些词的识别率造成了很 大的影响,因此对具有多义词的词语进行歧义消除是亟需解决的问题。 -般的论文研究主要基于知识库、Wordnet语义网络和基于统计进行研究,基于知 识的语义消歧包括基于规则和基于词典的方法,基于知识库的消歧方法主要依赖语言学家 的语言知识构造知识库,通过分析多义词所在上下文,选取其中满足某一项规则的义项。基 于Wordnet语义网络主要是根据Wordnet中词和词在网络中的关系进行分析。基于统计的 方法则需要以大型语料库作为知识源,从标注或者未标注的数据中学习消歧特征。这些方 法中需要的知识和语料库获取过程不仅长而且可信度比较低,也不具有领域通用性,在特 定领域下,效果就变得很差,不能有效实现命名实体语义消歧的目的。
技术实现思路
本专利技术针对现有的命名实体语义消歧方法无法满足特定领域的需求而且需要大 量的知识库的现状,提供了,旨在实现 以比较高的可解释度和精确度来进行命名实体消歧。 本专利技术提供的基于深度学习的非监督命名实体语义消歧方法,针对某一特定领 域,包括如下步骤: 步骤1 :构建爬虫程序,在垂直网站上抓取领域内的评论数据; 步骤2 :对评论数据进行预处理,包括:去重处理,根据数据长度进行清洗,去除垃 圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步 骤; 步骤3 :对评论数据进行中文分词,去除停用词,获取词集合; 步骤4:对词集合中的词建立索引,利用主题模型对词进行主题聚类,生成包含主 题信息的文档主题词分布; 步骤5 :对词集合中的所有词,使用基于深度学习的词聚类方法W〇rd2vec进行关 键词聚类,提取和关键词语义接近的前X个关键词; 步骤6 :使用条件随机场模型识别评论数据中的命名实体; 步骤7 :根据步骤4主题聚类的聚类结果,构建不同主题下的词集合,计算文档和 词集合的相似度,取相似度最高的前Y个主题,作分析和比较,得出文档中命名实体的语境 含义,从而消除语义岐义,X和Υ均为正整数。 相对于现有技术,本专利技术的非监督命名实体语义消歧方法,其优点和积极效果在 于: (1)利用Bloom filter技术对抓取的海量评论数据去重,数据处理效率高;基于给 定的规则集对评论数据进行清洗,有效精简数据; (2)利用基于深度学习的W〇rd2VeC技术提取词语的近义词集,对海量数据处理的 效率高、准确度高; (3)利用条件随机场模型进行命名实体识别,可有效识别命名实体;利用非监督 的主题聚类模型对命名实体进行语义主题聚类,采用基于上下文窗口技术进行命名实体语 义理解,实现了以比较高的可解释度和精确度来进行命名实体消歧。 【附图说明】 图1是本专利技术的非监督命名实体语义消歧方法的整体流程图; 图2是本专利技术的非监督命名实体语义消歧方法中抓取评论数据的流程图; 图3是本专利技术的非监督命名实体语义消歧方法步骤2?4的流程示意图; 图4是本专利技术的非监督命名实体语义消歧方法命名实体语义消歧模块流程图; 图5是本专利技术方法中步骤4中利用LDA主题模型获取字分布概率的示意图; 图6是给定词佛教在词上的分布概率示意图。 【具体实施方式】 下面将结合附图和实施例对本专利技术作进一步的详细说明。 本专利技术提供的,可以比较准确 地理解不同的词语在不同语境下的真正含义。本专利技术通过对命名实体识别,通过语义聚类 方式构建主题聚类,得到命名实体所属某一主题的概率,结合谷歌提出的利用深度学习技 术的 W〇rd2VeC技术构建主题向量,计算在不同主题下的相似度。同时根据所属同一主题的 其他命名实体,在进行语义消歧的时候,联系上下文,根据上下文中词在同一个主题中的共 现概率进行语义理解,正确的理解命名实体在不同语境下的真实含义。 本专利技术实施例中针对汽车网站数据,根据汽车网站的评论数据,采用条件随机场 模型对命名实体识别,采用非监督聚类模型和基于上下文的分析技术对命名实体进行语义 消歧。如图1所示,具体本专利技术的非监督命名实体语义消歧方法通过如下步骤1?步骤7 实现。 步骤1 :构建爬虫程序,抓取汽车行业的评论数据,这里主要包括汽车之家等垂直 网站的数据。本步骤分为如下两个子步骤,如图2所示: 步骤101 :构建分布式爬虫程序,对汽车网站数据进行页面抓取; 步骤102 :根据抓取到的html页面生成页面的Dom树结构,根据标签提取爬到页 面中包含的评论数据。 步骤2 :对评论数据进行预处理,去除噪音。本步骤中(1)利用Bloom filter方法 对海量数据进行处理,Bloom filter处理速度很快,避免了普通方法中的两两比较,因而是 线性复杂度,适合处理海量数据。(2)利用下面的规则集对行业评论数据进一步预处理:规 则1:评论数据长度小于5 ;规则2 :评论数据中含有特定的广告词;规则3 :基于网络特定回 复模板的自动回复;规则4:评论数据中含有网址的,去除网址,然后再重新判断是否符合 规则1?3。步骤2可分为步骤201?步骤204。将预处理后的评论数据用于下面步骤中。 步骤201 :根据评论数据长度进行清洗,利用正则表达式和制定的规则集去除垃 圾广告信息。 步骤202 :利用Bloom filter首先对评论数据利用N个hash函数映射到位数组中, 然后对后面的评论计算N个hash值,进而判断该评论数据是否已经存在,如果存在就过滤 掉。 步骤203 :设计匹配网址的正则表达式,去除评论数据中的网址,再次计算句子的 长度,然后在此基础上进行二次清洗,主要清洗长度不满足规则中设置的条件的。 步骤204 :统计网络自动评论模板,然后根据自动评论模板去除评论数据中包含 的自动评论。 步骤3 :对评论数据进行中文分词处理,获取对应的词集合。对所有评论数据进行 中文分词,去除停用词,获取分词结果。步骤3包括步骤301和302。 步骤301 :调用中文分词程序分词,然后根据停用词表去除停用词,对其中包含的 英文词进行形态变换,转换到统一形式。 步骤302 :计算词的文档频率df、词频tf和逆向文件频率idf,设词的权值使用计 算公式log(tf7(idf+l)+l)得到,然后根据设定的权值阈值进行词集筛选,提取权值大于 设定的权值阈值的词,从而提取到能够体现评论特征的词集合,同时通过词集筛选后也适 当地降低了词集合的维度。 步骤4 :利用主题模型对步骤3得到的词集合中的词进行主题聚类,生成包含主题 信息的文档主题词分布,如图3所示。每本文档来自技高网...
【技术保护点】
一种基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,其特征在于,进行如下步骤:步骤1:构建爬虫程序,在垂直网站上抓取领域内的评论数据;步骤2:对评论数据进行预处理,包括:去重处理,根据数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;步骤3:对评论数据进行中文分词,去除停用词,获取词集合;步骤4:对词集合中的词建立索引,利用主题模型对词进行主题聚类,生成包含主题信息的文档主题词分布;步骤5:使用基于深度学习的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的前X个关键词;X为正整数;步骤6:使用条件随机场该模型识别评论数据中的命名实体;步骤7:根据步骤4主题模型的聚类结果,构建不同主题下的词集合,计算文档和词集合的相似度,取相似度最高的前Y个主题作分析和比较,得出文档中命名实体的语境含义,从而消除语义岐义;Y为正整数。
【技术特征摘要】
2013.09.22 CN 201310431754.81. 一种基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,其特征在 于,进行如下步骤: 步骤1 :构建爬虫程序,在垂直网站上抓取领域内的评论数据; 步骤2 :对评论数据进行预处理,包括:去重处理,根据数据长度进行清洗,去除垃圾广 告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤; 步骤3 :对评论数据进行中文分词,去除停用词,获取词集合; 步骤4 :对词集合中的词建立索引,利用主题模型对词进行主题聚类,生成包含主题信 息的文档主题词分布; 步骤5 :使用基于深度学习的词聚类方法W〇rd2vec进行关键词聚类,提取和关键词语 义接近的前X个关键词;X为正整数; 步骤6 :使用条件随机场该模型识别评论数据中的命名实体; 步骤7 :根据步骤4主题模型的聚类结果,构建不同主题下的词集合,计算文档和词集 合的相似度,...
【专利技术属性】
技术研发人员:余雷,邓攀,闫碧莹,袁伟,李玉成,万安格,
申请(专利权)人:中科嘉速北京并行软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。