本发明专利技术实施例公开了一种语义词典构建方法和装置。所述语义词典构建方法包括:从用户的网络日志中提取具有相同或者相近语义的句子;根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。本发明专利技术实施例提供的语义词典构建方法和装置通过对用户的网络日志的挖掘高效的构建了包含同义词数据的语义词典。
【技术实现步骤摘要】
语义词典构建方法和装置
本专利技术实施例涉及网络数据处理技术,尤其涉及一种语义词典构建方法和装置。
技术介绍
根据目前的自然语言处理的工程实践来看,构建语料丰富、数据可靠的语义词典 对于提高自然语言处理系统的处理效率和准确率有着基础性的作用。然而,传统意义上的 语义词典大都依靠人工进行数据收集和加工。并且,由于语义词典自身对数据的专业性要 求较高,所以需要进行数据收集和加工的人员具有较高的专业背景知识和深厚的语言功 底。所以,能够满足上述要求而参加语义词典的编撰工作的人员数量一般较少。由于执行 数据收集和加工的人员数量有限,再加上数据收集和加工工作依靠手工完成,造成了传统 的语义词典编撰工作的效率低下。而在信息爆炸的今天,自然语言处理系统需要处理海量 的语料数据,如此低效的语义词典编撰效率显然难以满足信息加工和处理的需求。
技术实现思路
有鉴于此,本专利技术实施例提出一种语义词典构建方法和装置,以高效的构建语义 词典。 第一方面,本专利技术实施例提供了一种语义词典构建方法,所述方法包括: 从用户的网络日志中提取具有相同或者相近语义的句子; 根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近 语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词; 根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选 词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。 第二方面,本专利技术实施例提供了一种语义词典构建装置,所述装置包括: 语句筛选模块,用于从用户的网络日志中提取具有相同或者相近语义的句子; 词语筛选模块,用于根据所述具有相同或者相近语义的句子中的词的语义,对所 述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选 词; 词语聚类模块,用于根据所述备选词在所述具有相同或者相近语义的句子中的语 境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到 语义词典中。 本专利技术实施例提供的语义词典构建方法和装置,通过从用户的网络日志中提取具 有相同或者相近语义的句子,根据所述具有相同或者相近语义的句子中的词的语义对所述 具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选 词,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息对所述备选词进行 聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中,从而能够从用 户的网络日志中对同义词数据进行挖掘,进而高效的构建语义词典。 【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它 特征、目的和优点将会变得更明显: 图1是本专利技术第一实施例提供的语义词典构建方法的流程图; 图2是本专利技术第一实施例提供的语义词典构建方法中词语对齐的示意图; 图3是本专利技术第二实施例提供的语义词典构建方法的流程图; 图4是本专利技术第二实施例提供的语义词典构建方法中语句筛选的流程图; 图5是本专利技术第三实施例提供的语义词典构建方法的流程图; 图6是本专利技术第三实施例提供的语义词典构建方法中语句筛选的流程图; 图7是本专利技术第四实施例提供的语义词典构建方法中词语筛选的流程图; 图8是本专利技术第五实施例提供的语义词典构建方法的流程图; 图9是本专利技术第五实施例提供的语义词典构建方法中词语聚类的示意图; 图10是本专利技术第五实施例提供的语义词典构建方法中词语聚类的流程图; 图11是本专利技术第六实施例提供的语义词典构建装置的结构图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于 描述,附图中仅示出了与本专利技术相关的部分而非全部内容。 图1及图2示出了本专利技术的第一实施例。 图1是本专利技术第一实施例提供的语义词典构建方法的流程图。参见图1,所述语义 词典构建方法包括: S110,从用户的网络日志中提取具有相同或者相近语义的句子。 在互联网广为普及的今天,越来越多的人通过互联网获取资讯。用户在使用互联 网进行网页浏览、网页检索时,尤其是在使用搜索引擎进行网页检索时,服务器端会根据用 户的实际操作产生大量的网络日志数据。在本实施例中,通过对用户的网络日志进行挖掘 而构建语义词典。 所述网络日志包括用户点击日志以及用户会话日志。所述用户点击日志用于记录 用户在使用搜索引擎时,从输入检索句到从搜索结果页中点击需要浏览的网页对应的结果 条目的过程。所述用户会话日志用于记录用户在一次查询会话中所执行的不同的查询操 作。所述不同的查询操作是使用不同检索句的网页查询操作。 优选的,从用户的网络日志中提取具有相同或者相近语义的句子包括:根据用户 点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句 及所述网页的标题作为具有相同或者相近语义的句子;或者根据用户会话日志获取用户一 次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语 义的句子。 所述检索句是用户使用搜索引擎对互联网网页进行检索时使用的,搜索引擎用来 与不同的网页内容进行匹配,从而提供搜索结果的语句。所述检索句通常是一个完整的语 句,比如对外开放成就举世公认。但是,在一些特定情况下,所述检索句可能并不完整,t匕 如 iphone 6 售价。 S120,根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或 者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词。 从用户的网络日志中提取到具有相同或者相近语义的句子以后,根据所述具有相 同或者相近语义的句子中不同的词语的语义,对所述具有相同或者相近语义的句子中的词 进行对齐。 图2是本专利技术第一实施例提供的语义词典构建方法中词语对齐的示意图。参见图 2,所述具有相同或者相近语义的两个句子210、220被切分为词语201,然后以词语201为单 元,对所述具有相同或者相近语义的句子中的词语201进行了对齐。对所述词语201的对 齐是根据所述词语201的语义进行的,因此,完成对词语201的对齐以后,被对齐的两个词 语201、202 -般具有相同或者相近的语义。 完成了对所述具有相同或者相近语义的句子中词语的对齐以后,将被对齐的词语 作为具有相同或相近语义的备选词。 S130,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所 述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。 所述具有相同或相近语义的备选词只是将要构建的语义词典的备选数据项。还需 要对所述具有相同或相近语义的备选词做进一步的处理,才能从中提取真正具有相同语义 的词,并依据所述具有相同语义的词构建语义词典。 对所述具有相同或相近语义的备选词的进一步的处理是对所述备选词的聚类。所 述聚类依据所述备选词在所述具有相同或者相近语义的句子中的语境信息而完成。具体 的,将所述备本文档来自技高网...
【技术保护点】
一种语义词典构建方法,其特征在于,包括:从用户的网络日志中提取具有相同或者相近语义的句子;根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
【技术特征摘要】
1. 一种语义词典构建方法,其特征在于,包括: 从用户的网络日志中提取具有相同或者相近语义的句子; 根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义 的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词; 根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进 行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。2. 根据权利要求1所述的方法,其特征在于,从用户的网络日志中提取具有相同或者 相近语义的句子包括: 根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并 将所述检索句及所述网页的标题作为具有相同或者相近语义的句子;或者 根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两 个检索句作为具有相同或者相近语义的句子。3. 根据权利要求2所述的方法,其特征在于,根据用户点击日志获取用户查询过程中 所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相 同或者相近语义的句子包括: 根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数; 若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同 或者相近语义的句子。4. 根据权利要求2所述的方法,其特征在于,根据用户会话日志获取用户一次查询会 话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子 包括: 根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数; 若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为 具有相同或者相近语义的句子。5. 根据权利要求1所述的方法,其特征在于,根据所述具有相同或者相近语义的句子 中的词的语义对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或 者相近语义的备选词包括: 对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本 对齐; 根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐;和 /或 根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对 齐概率较高的词进行文本对齐。6. 根据权利要求1所述的方法,其特征在于,根据所述备选词在所述具有相同或者相 近语义的句子中的语境信息对所述备选词进行聚类,以获取具有相同语义...
【专利技术属性】
技术研发人员:曾增烽,李朋凯,林英展,何径舟,石磊,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。