一种基于专家逻辑结构树的地学数据发现方法技术

技术编号:25757169 阅读:42 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于专家逻辑结构树的地学数据发现方法,包括以下步骤:步骤1,地质叙词表的补充及整理;步骤2,逻辑结构树的实例化;步骤3,分词,将输入的词条利用分词手段进行分词,获取单个关键词;步骤4,叙词表比对;步骤5,数据获取。本发明专利技术的优点是:不仅可以获取从包含输入关键词的网页中获取数据,还可以从不含关键词但与关键词相关性较强的网页中获取数据,网页顺序依照地学相关性计算方法进行计算后得到的相关系数进行排序,从而获取用户真正需要的搜索结果。

【技术实现步骤摘要】
一种基于专家逻辑结构树的地学数据发现方法
本专利技术涉及地学数据计算
,特别涉及一种基于专家逻辑结构树的地学数据发现方法。
技术介绍
近年来,以大数据为首的互联网技术是当前信息化领域的重要内容和技术手段,各行业都在积极研究大数据在该领域的应用。同样,地质行业的发展也需要大数据等相关信息技术的支持与应用。随着云计算、人工智能、深度学习等信息技术的飞速发展,大数据的研究与应用在各领域取得突破。开展地质大数据的应用研究是我国大数据战略的重要组成部分。在大数据理念下,提高了“数据”资源的利用水平,消除了数据“孤岛”,获得了大量的成果,给地质行业带来了前所未有的机遇。随着信息技术快速发展与多年的成果积累,地质文本数据已达到海量的规模,同时其又具有多源、多元、异构、时空性、相关性等特征。要做到充分利用这些地质文本数据,精选所需的有效信息,挖掘数据背后的知识,需要实现相关技术的融合与创新。传统的爬虫技术无法在海量的网络数据中精准获得地质领域数据;传统的数据检索、管理方式主要适应于规范、数据量低的结构化数据,但处理文本等非结构化地质数据则实效性差、覆盖率低、结果不准确,无法进行定向或专题式的检索;传统的数据分析方法更是难以实现深层次的信息提取和知识挖掘。与此同时,找矿工作的难度日益增大,其成功率越来越依赖于新技术手段对成矿规律的深入研究和矿产资源预测的综合评价(赵鹏大,夏庆霖.中国学者在数学地质学科发展中的成就与贡献.地球科学:中国地质大学学报,2009,第2期:225-231)。如何充分利用已有的地质大数据,在海量的数据中及时、全面的获取所需地质信息,也就是进行大数据挖掘工作,是当今地质大数据应用的重要任务。根据地质领域数据管理、存储与产权等方面,可将地质数据其分为三类,即核心数据、邻域数据和公共数据。地质公共数据是指互联网上各种与地质相关的数据资源,如各类地质领域相关门户网站发布的地质新闻、找矿成果、地调信息以及各类学术网站的地质文献资源等。核心数据和邻域数据是指由于知识产权、信息商业价值与保密安全等原因,存储于内部局域网上的地质数据,例如地质调查报告,地球物理、化学、遥感调查成果以及各类矿产资源相关的图件、模型、钻孔数据等。文本数据是这些地质数据极为重要的组成部分,是地质工作者经验与智慧的结晶,蕴含了大量的知识与信息。以广域网、局域网获取的相关地质数据为基础,以自然语言处理、知识图谱、机器学习、深度学习等手段挖掘地质文本数据中蕴含的知识与信息,为矿产资源预测提供服务,实现从数据化到信息化,从知识化到服务化的过程,形成一套地质文本大数据发现、精选与知识挖掘的技术体系方法,实现软件系统功能,对地质大数据具有开拓性、实质性的创新应用,具有重要的研究意义。自然语言处理经过长久的发展,形成了很多的文本特征提取方法,例如TF-IDF法、χ2统计量法、信息增益法、互信息法、词频方法、期望交叉熵、二次信息熵等(代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究.中文信息学报,2004,18(1):27-33)。尽管文本挖掘技术有一定的理论基础与研究成果,但是基于文本的地质的数据发现还面临着一系列技术难题,例如地质文本分词、文本表示方法、语义分析等。中文分词是文本数据挖掘的基础,其利用相关中文分词方法将未处理文本进行分词,过滤处理后,输出一系列分组单词组成的字符串。目前,面向大规模中文语料的通用分词技术已经成熟,如结巴分词、盘古分词、搜狗分词等系统,但是这些通用化的分词系统无法满足地质专业的分词需求。此外,地质文本数据具有编制、描述的差异性以及地质内容专业性等特点。传统中文文本表示通常使用“词袋”表示法,以文本中的高频词汇特征值作为文本表示向量。但是这种方法既不能表达地质文本专业的语义信息,也不能满足地质文本语法多变等特点。已有的文本的自动分析与标注技术有待突破,这都是地质文本挖掘技术需要解决的问题。随着互联网不断发展,用户基于专题定制的个性化需求越来越突出,特别是在地质领域还没有具备地质主题功能的爬虫系统,无法实现在互联网上采集与精选所需的地质数据。世界各国都研究、建立了大量的知识库和应用系统。对于一些著名的商业公司、网站媒体以及政府机构也研发了具有知识搜索和计算功能的平台。我国也开展了大量领域本体、知识图谱构建的研究和开发工作。知识库的构建方法主要分为人工构建和自动构建。人工构建知识库,需要在该知识领域有一定经验的专家,从顶层构建、制定出合理、适用的知识体系框架,在统一的规则下总结、梳理概念、示例、关系等内容,还需要投入大量的人力、物力来填充、完善知识库。自动构建则通过系统自动或半自动的采集、标注数据语料,提取语料中的概念与实例,并通过共现矩阵、词频关联分析等方法获取属性、关系等规则生成知识库。现有技术中主要是利用传统搜索引擎发现数据:用户通过搜索引擎直接搜索含目标关键字的网页。搜索引擎根据其他用户浏览量判断网页优先级,将优先级高的网页进行推送。用户再通过逐一筛选或个人经验选取最合适的网站,进而获取需要的数据。搜索引擎给出的网站排序只与该网站的热门程度有关,与用户输入的关键词相关性并不一定强,且不包含与用户输入的关键词可能相关的其他词汇所在的网站,例如输入中文关键词无法获取其其他语言翻译对应的网页。本专利技术所用到的缩略语和关键术语定义大数据挖掘:是从大数据中统计、分析、提取出潜在的信息知识,并将这些知识构建成具有智能化、关联化知识库,实现知识检索与计算。专家知识结构树:专家团队提供的包含专业词汇及词汇间相关关系信息的树状图。地质叙词表:叙词表亦称主题词表、检索词典,是用于标引、存储和检索文献的词典,是叙词法的具体体现。叙词表是将标引者和检索者使用的自然语言转换成规范化的叙词型主题检索语言的术语控制工具。根据地学专家知识节点构建的地质叙词表:将专家团队提供的知识结构树根据上位类术语(BT)、优选术语(PT)、异性术语(VT)、相关术语(RT)、下位术语(NT)的词汇关系,构建包含上位词、下位词、相关词、族首词及同义词的地质叙词表。逻辑结构树计算:通过计算机编程,将地质叙词表中各个序词根据规定词汇关系存成树状结构。将需搜索的关键词关键词与生成的逻辑结构树进行比对,将其在树中的相关词作为拓展检索词进行传统检索,用户可以从中获取不含关键词但与关键词密切相关的各类地学数据。
技术实现思路
本专利技术针对现有技术的缺陷,提供了一种基于专家逻辑结构树的地学数据发现方法,解决了现有技术中存在的缺陷。为了实现以上专利技术目的,本专利技术采取的技术方案如下:一种基于专家逻辑结构树的地学数据发现方法,包括以下步骤:步骤1,地质叙词表的补充及整理;依据地质叙词表原有序词与地质学知识结点的树状知识图谱组成新的地质叙词表,依照既定格式将知识节点补充到地质叙词表的相应位置,并将地质学知识节点与地质叙词表原有节点中的重复节点进行比对和更新。地质叙词表包括:上位词、下位词、相关词、族首词及同义词;步骤2,逻辑结构树的实例化;将上位本文档来自技高网
...

【技术保护点】
1.一种基于专家逻辑结构树的地学数据发现方法,其特征在于,包括以下步骤:/n步骤1,地质叙词表的补充及整理;/n依据地质叙词表原有序词与地质学知识结点的树状知识图谱组成新的地质叙词表,依照既定格式将知识节点补充到地质叙词表的相应位置,并将地质学知识节点与地质叙词表原有节点中的重复节点进行比对和更新;地质叙词表包括:上位词、下位词、相关词、族首词及同义词;/n步骤2,逻辑结构树的实例化;/n将上位词、下位词、相关词、族首词及同义词的相关关系依据地质叙词表转换为对应的相关系数,将更新后的地质叙词表中的各个节点按树状结构存入选用的计算机程序,并存入每种关系对应的相关系数;/n步骤3,分词,将输入的词条利用分词手段进行分词,获取单个关键词;/n步骤4,叙词表比对;/n遍历地质叙词表,找出有效关键词在表中对应的位置,找到有效关键词的上位词、下位词、相关词、族首词及同义词,依据树形结构层层递进,直到找到的词汇相关性不足为止,相关性由加权的逻辑关系设定相关系数累积决定,根据自己设定的相关性阈值进行终止判断;/n步骤5,数据获取;/n根据相关性从大到小排列相关词,再将关键词与相关词依次导入传统搜索引擎,进行数据搜索;在搜索的过程中将网页中所有的文字进行进一步获取,将获取到的所有的文本信息进行重新的分词,比对,从而获得在潜在网页中可能会有的与主题相关的文本信息,再将这些文本信息进行回传到搜索引擎待搜索的队列当中用以进一步的扩张搜索,达到覆盖式的相关数据检索,从而更全面地获得数据。/n...

【技术特征摘要】
1.一种基于专家逻辑结构树的地学数据发现方法,其特征在于,包括以下步骤:
步骤1,地质叙词表的补充及整理;
依据地质叙词表原有序词与地质学知识结点的树状知识图谱组成新的地质叙词表,依照既定格式将知识节点补充到地质叙词表的相应位置,并将地质学知识节点与地质叙词表原有节点中的重复节点进行比对和更新;地质叙词表包括:上位词、下位词、相关词、族首词及同义词;
步骤2,逻辑结构树的实例化;
将上位词、下位词、相关词、族首词及同义词的相关关系依据地质叙词表转换为对应的相关系数,将更新后的地质叙词表中的各个节点按树状结构存入选用的计算机程序,并存入每种关系对应的相关系数;
步骤3,分词,将输入的词条利用分词手段进行分词,获取单个关键词;
步骤4,叙词表比对;
遍历地质叙词表,找出有效关键词在表中对应的位置,找到有效关键词的上位词、下位词、相关词、族首词及同义词,依据树形结构层层递进,直到找到的词汇相关性不足为止,相关性由加权的逻辑关系设定相关系数累积决定,根据自己设定的相关性阈值进行终止判断;
步骤5,数据获取;
根据相关性从大到小排列相关词,再将关键词与相关词依次导入传统搜索引擎,进行数据搜索;在搜索的过程中将网页中所有的文字进行进一步获取,将获取到的所有的文本信息进行重新的分词,比对,从而获得在潜在网页中可能会有的与主题相关的文本信息,再将这些文本信息进行回传到搜索引擎待搜索的队列当中用以进一步的扩张搜索,达到覆盖式的相关数据检索,从而更全面地获得数据。


2.根据权利要求1所述的一种基于专家逻辑结构树的地学数据发现方法,其特征在于:所述逻辑结构树通过计算机编程,将地质叙词表中各个序词根据规定词汇关系存成树状结构;将需搜索的关键词与生成的逻辑结构树进行比...

【专利技术属性】
技术研发人员:陈建平李诗李志斌刘苏庆张亚光
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1