当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于多模态知识图谱的水稻病虫害问答系统的构建方法技术方案

技术编号:37364708 阅读:22 留言:0更新日期:2023-04-27 07:12
本发明专利技术公开了一种基于多模态知识图谱的水稻病虫害问答系统的构建方法。属于知识图谱以及自然语言处理领域,具体步骤:1)、数据采集与整理,以垂直网站为数据源,通过网络爬虫程序获取有关农作物病虫害的文本信息、图片信息以及图片链接,再通过网络将关键信息分类整理,存入档;2)、从整理好的数据中进行实体抽取和关系抽取,对实体与关系进行解析,最终实现多模态知识图谱的构建;3)、问答系统构建,对问题进行实体识别与分词和三元组抽取,对问题语义进行分析,再进行模板匹配以确定输出结果。本发明专利技术能够利用网络数据构建知识图谱,在大量数据的基础之上利用自然语言处理技术,达到对问题精确有效回答的目的。问题精确有效回答的目的。问题精确有效回答的目的。

【技术实现步骤摘要】
一种基于多模态知识图谱的水稻病虫害问答系统的构建方法


[0001]本专利技术属于知识图谱以及自然语言处理领域,涉及了一种基于多模态知识图谱的水稻病虫害问答系统的构建方法。

技术介绍

[0002]网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通过搜索引擎所返回的结果包含大量用户不关心的网页。万维网资料形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的连结,获取所需要的信息。
[0003]自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。

技术实现思路

[0004]专利技术目的:本专利技术的目的在于提供了一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,以期能利用网络爬虫,知识图谱,机器学习等方法和技术,达到构建智能化农业问答系统的目的。
[0005]技术方案:本专利技术所述的一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,包括以下步骤:
[0006]步骤1)、数据采集与整理;
[0007]其具体的是:以垂直网站为数据源,通过网络爬虫程序获取有关农作物水稻的病虫害文本信息、图片信息以及图片链接,再经模糊查寻,人工筛选等方法将关键信息分类整理,存入档;
[0008]步骤2)、多模态知识图谱的构建;
[0009]其具体的是:从整理好的数据中进行实体抽取和关系抽取,对实体与关系进行解析,最终实现具有文本、图片两种模态的水稻病虫害的多模态知识图谱的构建;
[0010]步骤3)、问答系统构建;
[0011]其具体的是:对问题进行实体识别与分词和三元组抽取,对问题语义进行分析,再进行模板匹配以确定输出结果。
[0012]进一步的,所述步骤1)的具体操作步骤如下:
[0013]步骤1.1)、利用浏览器等网络工具查找有关农作物病虫害的垂直网站,选择资料充实,架构清晰的网站作为数据源;
[0014]步骤1.2)、利用web技术对目标网站的网页进行分析与解构,编写网络爬虫程序,根据一定的网页分析算法过滤与病虫害无关的内容,保留有用的信息并将其抓取,抓取完成之后对数据进行初步的分类与整理,存入json文件;
[0015]步骤1.3)、利用人工复筛的方式对上述数据中不完善的部分进行二次筛选与补充,使得数据尽可能的清晰明确,方便后续程序进行分析。
[0016]进一步的,所述步骤2)的具体操作步骤如下:
[0017]步骤2.1)、实体构建:通过实体抽取,从上述步骤中获取的非结构化与半结构化的文本数据集中提取有意义的文本实体,对图片实体及链接与相应文本实体匹配,并将其归类;
[0018]本系统参考农学系统语义的各种框架,基于文本规律构建抽取规则,使用正则表达式替换、字段分割等方法,抽取出系统所需的实体;
[0019]步骤2.2)、关系构建:结合问答系统的实际需求和农作物病虫害本身的特点,将实体与属性以及实体与实体之间的关系进行抽象与分类;在实体进行构建之时处理它们之间的关系;
[0020]步骤2.3)、抽取实体

属性

实体的三元组,将三元组的元组链接到本体的标签上,当识别出本体的模式层后,通过对模式层的关系的收集,对语料进行三元组抽取,将涉及到该节点和模式层关系的三元组加入知识图谱;
[0021]最终,将数据关联到已有的数据表之中,导入图数据库Neo4j,完成多模态知识图谱的构建。
[0022]进一步的,所述步骤3)的具体操作步骤如下:
[0023]步骤3.1)、问题分析:首先,将问题的数据分别划分成主、谓、宾三类,范本匹配的方式收集问题中所涉及到的实体类型与关系类型,根据实体与关系类型将问题分类,将多个分类结果组装成一个字典;
[0024]步骤3.2)、答案搜索:根据对应的问题类型以及问题中的实体类型,调用相应的回复模板,并插入实体对应的关系或属性,拼装完成后作为答案输出给用户参考或使用。
[0025]有益效果:本专利技术与现有技术相比,本专利技术的特点是:1、提供一个领域数据自适应的、可灵活配置、低成本可扩展可维护的知识系统、工具或服务,对用户不同来源的数据进行结构化整合、联通,发挥出知识的潜在价值;2、资料自适应性,界定了该平台的可复用性,能够根据不同的资料提供标准化的处理流程,将差异化的环节压缩到最小;3、可灵活配置,规定了平台的易用性,即不需要很高的用户学习成本,用户群体可以是业务人员,也可以是代码能力不高的程度员,他们只需要根据自己的需求,通过系统规定的流程进行流程配置即可。
附图说明
[0026]图1为本专利技术的总体构建框架图。
具体实施方式
[0027]为了更清楚地说明本专利技术的技术方案,下面结合附图对本专利技术的技术方案做进一步的详细说明:
[0028]如图所示;本专利技术所述的一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,包括以下步骤:
[0029]步骤1)、数据采集与整理,以垂直网站为数据源,通过网络爬虫程序获取有关农作物水稻的病虫害文本信息、图片信息以及图片链接,再经模糊查寻,人工筛选等方法将关键信息分类整理,存入档;
[0030]步骤1.1)、利用浏览器等网络工具查找有关农作物病虫害的垂直网站,选择资料充实,架构清晰的网站作为数据源;
[0031]步骤1.2)、利用web技术对目标网站的网页进行分析与解构,编写网络爬虫程序,根据一定的网页分析算法过滤与病虫害无关的内容,保留有用的信息并将其抓取,抓取完成之后对数据进行初步的分类与整理,存入json文件;
[0032]步骤1.3)、利用人工复筛的方式对上述数据中不完善的部分进行二次筛选与补充,使得数据尽可能的清晰明确,方便后续程序进行分析;
[0033]步骤2)、从整理好的数据中进行实体抽取和关系抽取,对实体与关系进行解析,最终实现具有文本、图片两种模态的水稻病虫害的多模态知识图谱的构建;
[0034]步骤2.1)、实体构建:通过实体抽取,从上述步骤中获取的非结构化与半结构化的文本数据集中提取有意义的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,其特征在于,其具体操作步骤如下:步骤(1)、数据采集与整理;步骤(2)、多模态知识图谱的构建;步骤(3)、问答系统构建。2.根据权利要求1所述的一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,其特征在于,在步骤(1)中,所述数据采集与整理具体是:以垂直网站为数据源,通过网络爬虫程序获取有关农作物水稻的病虫害文本信息、图片信息及图片链接,再经模糊查寻及人工筛选的方法将关键信息分类整理,存入档。3.根据权利要求2所述的一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,其特征在于,其具体操作步骤如下:步骤(1.1)、利用如浏览器的网络工具查找有关农作物病虫害的垂直网站,选择资料充实,架构清晰的网站作为数据源;步骤(1.2)、利用web技术对目标网站的网页进行分析与解构,编写网络爬虫程序,根据网页分析算法过滤与病虫害无关的内容,保留有用的文本信息和图片信息并将其抓取,抓取完成之后对数据进行初步的分类与整理,存入json文档;步骤(1.3)、利用人工复筛的方式对上述数据中不完善的部分进行二次筛选与补充,使得数据清晰明确,从而方便后续程序进行分析。4.根据权利要求1所述的一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,其特征在于:在步骤(2)中,所述多模态知识图谱的构建具体是:从整理好的数据中进行实体抽取和关系抽取,对实体与关系进行解析,最终实现具有文本、图片两种模态的水稻病虫害的多模态知识图谱的构建。5.根据权利要求4所述的一种基于多模态知识图谱的水稻病虫害问答系统的构建方法,其特征在于,其具体操作步骤如下:步骤(2.1)、实体构建:通过实体抽取,从上述步骤中...

【专利技术属性】
技术研发人员:徐向英陈佳云卞睿李蔚吕昊豫魏刘逸哲
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1