基于多模态的知识图谱检索系统及方法技术方案

技术编号:28321028 阅读:24 留言:0更新日期:2021-05-04 13:01
本发明专利技术属于数据检索技术领域,尤其涉及基于多模态的知识图谱检索系统及方法,包括:采集单元,用于从预设的采集渠道采集新闻数据,第一服务器,第一服务器为检索服务器,用于存储采集的新闻数据;建模单元,用于进行文本与图像的标识建模,得到第一模型,还用于基于异构网络对第一模型进行跨模态处理,得到第二模型;处理单元,用于通过第二模型对第一服务器内的数据进行清洗分析;第二服务器,第二服务器为非关系型数据库,用于存储清洗分析后的数据;检索单元,用于使用接收的图数据在第二服务器内进行关系检索,得到检索结果。使用本系统,能够使检索数据更加精准、完整。

【技术实现步骤摘要】
基于多模态的知识图谱检索系统及方法
本专利技术属于数据检索
,尤其涉及基于多模态的知识图谱检索系统及方法。
技术介绍
多媒体文档由多个不同模态的媒体对象(包括音频、图像和文本等)组成,并具有一定的语义,如网络上的大多数新闻都属于多媒体文档。对多媒体文档的检索,则属于多模态检索技术。多模态检索的核心思想是模糊媒体资源模态,以更贴近人类思维的高层概念解释目标对象,使不同模态的资源从各自的侧面表达相同的高层概念,从而更加全面地反映特定的内容信息。其重点并不在于使用多少种媒体,而是要充分发掘和利用媒体之间潜在的关系,以及它们各自对于表达目标概念做出的贡献。目前,图像、文本检索的研究主要集中在单模态检索上,查询和候选集的内容均属于同一模态。新闻数据在多模态检索通过建立在多种模态之间的信息映射关系,完成信息在不同形态空间中的表达转化,最终实现跨越信息资源形态差异的检索。伴随着多媒体技术的发展与丰富,对于多媒体之间检索的需求则越来越强。因此,出现了功能相对单模态检索系统更强大的多模态检索系统,但多模态检索面临的最大问题是如何能更好地在文本、图像、视频等多模态之间实现互相识别与检索,精确度与完整性难移得到保证。因此,需要一种基于多模态的知识图谱检索系统及方法,能够使检索数据更加精准、完整。
技术实现思路
本专利技术的目的在于,提供一种基于多模态的知识图谱检索系统及方法,能够使检索数据更加精准、完整。本专利技术提供的基础方案为:基于多模态的知识图谱检索系统,包括:采集单元,用于从预设的采集渠道采集新闻数据;第一服务器,第一服务器为检索服务器,用于存储采集的新闻数据;建模单元,用于进行文本与图像的标识建模,得到第一模型,还用于基于异构网络对第一模型进行跨模态处理,得到第二模型;处理单元,用于通过第二模型对第一服务器内的数据进行清洗分析;第二服务器,第二服务器为非关系型数据库,用于存储清洗分析后的数据;检索单元,用于使用接收的图数据在第二服务器内进行关系检索,得到检索结果。基础方案工作原理及有益效果:采集单元从预设的采集渠道采集新闻数据后,存储到第一服务器中,等待处理。之后,处理单元用第二模型对该新闻数据进行清洗分析后,存储在第二服务器中。之后,使用者可通过检索单元进行关系检索。即,检索者可以通过检索单元输入想检索的文档数据(图数据)来获取资料。由于第二模型用基于异构网络对第一模型进行跨模态处理得到,而第一模型为文本与图像的标识建模。通过处理单元的清洗分析后的数据,在保证数据完整性的同时,还能够保证数据的结构化。这样,当使用者通过检索单元在第二服务器内进行检索时,由于本系统为多模态融合,可以为模型决策提供更多的信息,除此,由于本系统保证了数据的完整性与结构化,还能够提高决策总体结果的准确率。综上,使用本系统,能够使检索数据更加精准、完整。进一步,检索单元为知识图谱搜索引擎。采用知识图谱作为辅助,搜索引擎能够洞察用户查询背后的语义信息,返回更为精准、结构化的新闻来源信息,更大可能地满足用户的检索需求。进一步,建模单元使用RandomWalk算法对第一模型进行跨模态处理。RandomWalk就是针对浏览网页的用户行为建立的抽象概念模型,假设互联网中共有m个页面,则用户远程跳转到任意一个页面的概率也是相等的,即为1/m。RandomWalk是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。这样得到的第二模型,在进行数据清洗分析时,能够保证得到的数据的完整性。进一步,建模单元采用LDA与SIFT算法进行建模,得到第一模型。进一步,第一服务器为ElasticSearch。通过利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。进一步,第二服务器为neo4j。Neo4j是一个嵌入式,基于磁盘的,支持完整事务的Java持久化引擎,它在图(网络)中而不是表中存储数据。Neo4j提供了大规模可扩展性,在一台机器上可以处理数十亿节点/关系/属性的图,可以扩展到多台机器并行运行。进一步,预设的采集渠道为融媒体。“融媒体”是充分利用媒介载体,把广播、电视、报纸等既有共同点,又存在互补性的不同媒体,在人力、内容、宣传等方面进行全面整合,实现“资源通融、内容兼融、宣传互融、利益共融”的新型媒体。采集渠道为融媒体,能够保证新闻数据的全面性。本专利技术的基础方案之二:一种基于多模态的知识图谱检索方法,使用上述基于多模态的知识图谱检索系统。附图说明图1为本专利技术实施例一的逻辑框图。具体实施方式下面通过具体实施方式进一步详细说明:实施例一如图1所示,基于多模态的知识图谱检索系统,包括采集单元、第一服务器、建模单元、处理单元、第二服务器和检索单元。采集单元用于从预设的采集渠道采集新闻数据。本实施例中,预设的采集渠道为融媒体。“融媒体”是充分利用媒介载体,把广播、电视、报纸等既有共同点,又存在互补性的不同媒体,在人力、内容、宣传等方面进行全面整合,实现“资源通融、内容兼融、宣传互融、利益共融”的新型媒体。采集渠道为融媒体,能够保证新闻数据的全面性。第一服务器为检索服务器,用于存储采集的新闻数据;本实施例中,第一服务器为ElasticSearch。通过利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。建模单元用于进行文本与图像的标识建模,得到第一模型,还用于基于异构网络对第一模型进行跨模态处理,得到第二模型;具体的,建模单元采用LDA与SIFT算法进行建模,得到第一模型。建模单元使用RandomWalk算法对第一模型进行跨模态处理。RandomWalk就是针对浏览网页的用户行为建立的抽象概念模型,假设互联网中共有m个页面,则用户远程跳转到任意一个页面的概率也是相等的,即为1/m。RandomWalk是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。这样得到的第二模型,在进行数据清洗分析时,能够保证得到的数据的完整性。处理单元用于通过第二模型对第一服务器内的数据进行清洗分析。第二服务器为非关系型数据库,用于存储清洗分析后的数据;检索单元,用于使用接收的图数据在第二服务器内进行关系检索,得到检索结果。本实施例中,检索单元为知识图谱搜索引擎。具体实施过程如下:采集单元从预设的采集渠道采集新闻数据后,存储到第一服务器中,等待处理。之后,处理单元用第二模型对该新闻数据进行清洗分析后,存储在第二服务器中。之后,使用者可通过检索单元进行关系检索。由于第二模型用基于异构网络对第一模型进行跨模态处理得到,而第一模型为文本与图像的标识建模。通过处理单元的清洗分析后的数据,在保证数据完整性的同时,还能够保证数据的结构化。这样,当使用者通过检索单元在第二服务器内进行检索时,由于本系统为本文档来自技高网...

【技术保护点】
1.基于多模态的知识图谱检索系统,其特征在于,包括:/n采集单元,用于从预设的采集渠道采集新闻数据,/n第一服务器,第一服务器为检索服务器,用于存储采集的新闻数据;/n建模单元,用于进行文本与图像的标识建模,得到第一模型,还用于基于异构网络对第一模型进行跨模态处理,得到第二模型;/n处理单元,用于通过第二模型对第一服务器内的数据进行清洗分析;/n第二服务器,第二服务器为非关系型数据库,用于存储清洗分析后的数据;/n检索单元,用于使用接收的图数据在第二服务器内进行关系检索,得到检索结果。/n

【技术特征摘要】
1.基于多模态的知识图谱检索系统,其特征在于,包括:
采集单元,用于从预设的采集渠道采集新闻数据,
第一服务器,第一服务器为检索服务器,用于存储采集的新闻数据;
建模单元,用于进行文本与图像的标识建模,得到第一模型,还用于基于异构网络对第一模型进行跨模态处理,得到第二模型;
处理单元,用于通过第二模型对第一服务器内的数据进行清洗分析;
第二服务器,第二服务器为非关系型数据库,用于存储清洗分析后的数据;
检索单元,用于使用接收的图数据在第二服务器内进行关系检索,得到检索结果。


2.根据权利要求1所述的基于多模态的知识图谱检索系统,其特征在于:检索单元为知识图谱搜索引擎。


3.根据权利要求1所述的基于多模态的知识图谱检索系...

【专利技术属性】
技术研发人员:王晶
申请(专利权)人:重庆空间视创科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1