一种基于人工智能的传统文化素材库构建方法及系统技术方案

技术编号:23764665 阅读:43 留言:0更新日期:2020-04-11 19:12
本发明专利技术实施例提供一种基于人工智能的传统文化素材库构建方法及系统。该方法包括:获取原始文化素材集合;将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。本发明专利技术实施例通过应用基于人工智能的一系列算法,对文化元素的各个特征进行分类提取和整合,基于提取整合的结果构建了系统的文化素材库,很好地提供了搜索文化素材的体验。

A construction method and system of traditional culture material base based on Artificial Intelligence

【技术实现步骤摘要】
一种基于人工智能的传统文化素材库构建方法及系统
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的传统文化素材库构建方法及系统。
技术介绍
在传统文化元素领域,由于存在大量的素材,其产生的年代悠久,对应的分类比较繁杂,内容和表现形式差异性比较大。而针对传统文化元素的素材整理,目前还没有比较系统的方案对传统文化元素进行一个全面的统计和整理,普遍都是分门别类的进行统计,也没有一个产品对文化的素材进行有效的提取,无法全面和系统的获取到对应的文化素材。因此,需要提出一种新的构建传统文化素材库的方法,能解决上述问题。
技术实现思路
本专利技术实施例提供一种基于人工智能的传统文化素材库构建方法及系统,用以解决现有技术中对素材的分类不系统,覆盖不够全面,对应的搜索无法不够精确等缺陷。第一方面,本专利技术实施例提供一种基于人工智能的传统文化素材库构建方法,包括:获取原始文化素材集合;将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。优选地,所述将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合,具体包括:按照所述原始文化素材集合对应的文件扩展名进行分类;得到扩展名为xml的文本素材集合,以及扩展名为jpg的图片素材集合。优选地,所述基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果,具体包括:获取词向量表示算法,将所述文本素材集合进行数据清洗,得到预处理文本素材集合;基于分词算法,对所述预处理文本素材集合进行处理,得到文本语料导入词;对所述文本语料导入词进行聚类分析,得到聚类文本;将所述聚类分析文件存入xls文件,得到所述文本素材整理结果。优选地,所述对所述文本语料导入词进行聚类分析,得到聚类文本,具体包括:获取所述文本语料导入词;向所述文本语料导入词中导入预先训练好的中文词向量;将所述文本语料导入词加载入词嵌入矩阵;获取分类标签,基于所述分类标签计算所述文本语料导入词与目标分类的近似度,得到所述聚类文本。优选地,所述基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果,具体包括:获取FasterR-CNN算法,提取所述FasterR-CNN算法中的分类标签输出,以及候选窗口输出;基于所述分类标签输出和所述候选窗口输出,对所述图片素材集合进行物体检测,得到目标检测结果;获取FCN算法,叠加在所述FasterR-CNN算法基础上,提取所述FCN算法中的二进制掩模输出,获得所述图像语义分割算法;基于所述图像语义分割算法,对所述目标检测结果提取目标轮廓,得到所述图片素材整理结果。优选地,所述基于所述二进制掩模输出,对所述目标检测结果提取目标轮廓,具体包括:对所述目标检测结果进行对象区域分割,识别所述对象分割区域的内容。优选地,所述将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库,之后还包括:提取文化元素简介为标签,并从文化素材中提取文化元素,输入至所述非关系型数据库;所述非关系型数据库实时同步数据至所述全文检索引擎;用户输入检索词至所述全文检索引擎;所述全文检索引擎返回检索结果给所述用户,进行检索结果展示。第二方面,本专利技术实施例提供一种基于人工智能的传统文化素材库构建系统,包括:获取模块,用于获取原始文化素材集合;分类模块,用于将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;文本处理模块,用于基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;图片处理模块,用于基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;构建模块,用于将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述基于人工智能的传统文化素材库构建方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述基于人工智能的传统文化素材库构建方法的步骤。本专利技术实施例提供的基于人工智能的传统文化素材库构建方法及系统,通过应用基于人工智能的一系列算法,对文化元素的各个特征进行分类提取和整合,基于提取整合的结果构建了系统的文化素材库,很好地提供了搜索文化素材的体验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种基于人工智能的传统文化素材库构建方法流程图;图2为本专利技术实施例提供的数据清洗与文本提取部分体系结构图;图3为本专利技术实施例提供的分词处理过程流程图;图4为本专利技术实施例提供的GloVe算法对导入文本进行聚类分析流程示意图;图5为本专利技术实施例提供的素材检索系统流程图;图6为本专利技术实施例提供的系统ER图;图7为本专利技术实施例提供的一种基于人工智能的传统文化素材库构建系统结构图;图8为本专利技术实施例提供的电子设备的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有技术中对传统文化素材分类不够系统和准确的问题,本专利技术实施例提出了一种基于人工智能的传统文化素材库构建方法,该方法基于人工智能技术的传统文化素材库系统,采用网络爬虫技术大量收集传统文化元素数据,运用文本分类技术进行元素分类,很好的对传统文化元素进行了统计和整理,同时对已有的文化元素进行素材识别和提取。针对中国文化素材库系统,研究文本素材特征提取技术;研究基于空间信息的中国文化图像素材的特征提取技术,构建基于特征选择与组合的图像素材分类识别方法;构建本文档来自技高网...

【技术保护点】
1.一种基于人工智能的传统文化素材库构建方法,其特征在于,包括:/n获取原始文化素材集合;/n将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;/n基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;/n基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;/n将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。/n

【技术特征摘要】
1.一种基于人工智能的传统文化素材库构建方法,其特征在于,包括:
获取原始文化素材集合;
将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;
基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;
基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;
将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。


2.根据权利要求1所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合,具体包括:
按照所述原始文化素材集合对应的文件扩展名进行分类;
得到扩展名为xml的文本素材集合,以及扩展名为jpg的图片素材集合。


3.根据权利要求1所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果,具体包括:
获取词向量表示算法,将所述文本素材集合进行数据清洗,得到预处理文本素材集合;
基于分词算法,对所述预处理文本素材集合进行处理,得到文本语料导入词;
对所述文本语料导入词进行聚类分析,得到聚类文本;
将所述聚类分析文件存入xls文件,得到所述文本素材整理结果。


4.根据权利要求3所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述对所述文本语料导入词进行聚类分析,得到聚类文本,具体包括:
获取所述文本语料导入词;
向所述文本语料导入词中导入预先训练好的中文词向量;
将所述文本语料导入词加载入词嵌入矩阵;
获取分类标签,基于所述分类标签计算所述文本语料导入词与目标分类的近似度,得到所述聚类文本。


5.根据权利要求2所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果,具体包括:
获取FasterR-CNN算法,提取所述FasterR-CNN算法中的分类标签输出,以及候选窗口输出;
基于所述分类标签输出和所述候选...

【专利技术属性】
技术研发人员:胡涵清张健尹小林齐林倪渊吕进
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1