System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识图谱领域,特别是涉及一种移动端智能图谱构建与自适应可视化方法及其系统。
技术介绍
1、随着移动端智能设备的普及和性能的不断提升,人们越来越多地在移动端进行各种信息的查询和分析。知识图谱作为结构化表示复杂关系数据的有效手段,在多个领域得到了广泛应用。然而,传统的图谱构建方法大多依赖于复杂的计算环境和大量的人工干预,难以在移动端实现高效构建与展示。现有的移动端信息展示方式往往较为单一,难以满足用户对复杂信息的理解和分析需求。尤其是在处理大量关联信息时,传统的展示方式容易导致信息混乱、难以阅读和理解。
2、目前知识图谱构建流程较为成熟,使用的方法也多种多样。主要构建流程包括数据收集、知识抽取、知识图谱构建。其中涉及最核心的方法是知识抽取方法和知识图谱构建方法。知识抽取包括实体识别和关系抽取,主流方法有预定义规则匹配从文本中识别实体和提取关系、使用nlp(自然语言处理)技术分析文本语义识别实体和抽取关系、机器学习算法训练模型进行识别文本中的实体和抽取关系;知识图谱构建主流方法有人工构建、自动构建、半自动构建等。
3、另一方面,随着机器学习等算法的蓬勃发展,以及硬件设备性能的提升,这使得我们提出的一种移动端智能图谱构建与自适应可视化方法及其系统更具有可行性。移动端知识图谱构建和可视化的特点是周期短、时效高,这就需要减少人工干预的依赖。所以,需要自动化和智能化的构建方法来满足移动端可视化的需求。
技术实现思路
1、本专利技术的目的在于提出一种移动端智能
2、实现本专利技术目的的技术解决方案为:一种移动端智能图谱构建与自适应可视化方法,包括如下步骤:
3、步骤1,收集多种来源数据,包括开源渠道和闭源渠道,数据形式包括文本、图像、音频、视频,整合形成结构化数据和半结构化数据;
4、步骤2,训练知识抽取模型,对结构化数据和半结构化数据进行实体识别和关系抽取,形成三元组结构,以实体为节点、关系为边,建立移动端智能图谱,其中实体包括人物、机构、党派、地点、职位、学校、专业、事件、荣誉、成就,关系包括任职、参与、政党、毕业于、教育、荣誉、亲情、社交、影响、出生地、居住地、其他;
5、步骤3,获取移动端设备的相关参数,包括屏幕宽高、屏幕亮度、屏幕刷新帧率;建立颜色模板,分别为实体、关系预定义颜色rgb值,形成实体、关系的可视化颜色对应表;将移动端设备的相关参数和实体、关系的可视化颜色对应表组合得到可视化模板参数;
6、步骤4,调用图谱检索接口,获取到关系类别个数和每个关系下的实体节点个数,根据可视化模板参数动态计算排版布局,采用分类聚合和分层渲染的方式,绘制移动端智能图谱。
7、进一步的,步骤1,收集多种来源数据,包括开源渠道和闭源渠道,数据形式包括文本、图像、音频、视频,整合形成结构化数据和半结构化数据,具体方法为:
8、(1)开源渠道
9、通过爬虫技术从互联网采集开源数据,进行数据预处理,对于文本数据进行清洗,去除特殊字符和特殊编码,其中特殊字包括“%”、“:”、“]”、“[”、“\”,特殊编码包括“ascii”;对于图像数据规则化命名方式和统一图片文件格式,将非“*.jpg、*.jpeg、*.png”格式规则化为“*.jpg、*.jpeg、*.png”,命名方式采用“名称+日期+编号”的方式进行保存;对于音频数据和视频数据规则化文件的命名方式,采用“名称+日期+编号”的方式进行保存;
10、(2)闭源渠道
11、将闭源数据分类为纸质数据和电子数据,对于纸质数据进行ocr识别形成文本并进行分段落处理;对于电子数据,将word文档形成半结构化段落文本,excel表格按照字段结构化处理;
12、(3)整合
13、将以上开源渠道和闭源渠道各类型数据进行整合,按照文件格式类型分类,采集的网页数据html格式文件进行编写脚本解析生成结构化json文件;文本数据通过分段落、分句进行分割存储生成半结构化文本txt文件;图像文件、音视频文件和视频文件根据文件名称和地址url进行存储生成结构化json文件。
14、进一步的,步骤2,训练知识抽取模型,对结构化数据和半结构化数据进行实体识别和关系抽取,形成三元组结构,以实体为节点、关系为边,建立移动端智能图谱,具体方法为:
15、知识抽取模型采用qwen2-0.5b-instruct预训练模型,对结构化和半结构化数据进行实体识别和关系抽取,输入为结构化和半结构化文本数据,输出为实体识别结果和关系抽取结果;
16、qwen2-0.5b-instruct预训练模型包括4个稠密模型和1个专家混合模型,其中稠密模型参数范围包括0.5b、1.5b、7b、72b,专家混合模型参数范围包括57b-a14b;
17、(2)将抽取的实体以节点形式存储在数据库中,以形成实体集合:vs={v1,v2,…vn},每个实体vn又包含各属性信息集合:
18、将抽取的关系以边的形式进行组织,构建头实体和尾实体之间的关系,以形成关系集合:es={e1,e2,…en},每个关系en又包含各属性信息集合:
19、对于构建好的实体集合vs和关系集合es,在mongodb数据库中分别建立实体表“vertex”和关系表“edge”,并构建实体索引和关系索引,封装检索接口api,为移动端智能图谱可视化提供支撑。
20、进一步的,实体集合:vs={v1,v2,…vn},每个实体vn又包含各属性信息集合:其中:
21、实体“人物”,包含属性信息“中文名”、“英文名”、“别名”、“国籍”、“性别”、“民族”、“出生日期”;
22、实体“机构”,包含属性信息“中文名”、“英文名”、“简介”;
23、实体“党派”,包含属性信息“中文名”、“英文名”、“简介”;
24、实体“地点”,包含属性信息“中文名”、“英文名”、“简介”、“地理坐标”;
25、实体“职位”包含属性信息“中文名”、“英文名”、“工作内容”;
26、实体“学校”包含属性信息“中文名”、“英文名”、“简介”;
27、实体“专业”包含属性信息“中文名”、“英文名”、“专业课程”;
28、实体“事件”包含属性信息“事件发生地”、“事件内容”、“发生时间”、“结束时间”;
29、实体“荣誉”包含属性信息“荣誉类型”、“获得时间”;
30、实体“成就”包含属性信息“成就内容”、“获得时间”。
31、进一步的,关系集合:es={e1,e2,…en},每个关系en又包含各属性信息集合:其中:
32、关系“任职”,包括头实体“人物”和尾实体“机构”和属性信息“担任职位”、“任职开始时间”、“任职结束时间本文档来自技高网...
【技术保护点】
1.一种移动端智能图谱构建与自适应可视化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤1,收集多种来源数据,包括开源渠道和闭源渠道,数据形式包括文本、图像、音频、视频,整合形成结构化数据和半结构化数据,具体方法为:
3.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤2,训练知识抽取模型,对结构化数据和半结构化数据进行实体识别和关系抽取,形成三元组结构,以实体为节点、关系为边,建立移动端智能图谱,具体方法为:
4.根据权利要求3所述的移动端智能图谱构建与自适应可视化方法,其特征在于,实体集合:Vs={V1,V2,…Vn},每个实体Vn又包含各属性信息集合:其中:
5.根据权利要求3所述的移动端智能图谱构建与自适应可视化方法,其特征在于,关系集合:Es={E1,E2,…En},每个关系En又包含各属性信息集合:其中:
6.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤3,获取移动端设备的相关参数,包括屏幕
7.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤3,获取移动端设备的相关参数,包括屏幕宽高、屏幕亮度、屏幕刷新帧率;建立颜色模板,分别为实体、关系预定义颜色RGB值,形成实体、关系的可视化颜色对应表,具体方法为:
8.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤4,调用图谱检索接口,获取到关系类别个数和每个关系下的实体节点个数,根据可视化模板参数动态计算排版布局,采用分类聚合和分层渲染的方式,绘制移动端智能图谱,其中:
9.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,还包括:
10.一种移动端智能图谱构建与自适应可视化系统,其特征在于,实施权利要求1-9任一项所述的移动端智能图谱构建与自适应可视化方法,实现移动端智能图谱构建与自适应可视化。
...【技术特征摘要】
1.一种移动端智能图谱构建与自适应可视化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤1,收集多种来源数据,包括开源渠道和闭源渠道,数据形式包括文本、图像、音频、视频,整合形成结构化数据和半结构化数据,具体方法为:
3.根据权利要求1所述的移动端智能图谱构建与自适应可视化方法,其特征在于,步骤2,训练知识抽取模型,对结构化数据和半结构化数据进行实体识别和关系抽取,形成三元组结构,以实体为节点、关系为边,建立移动端智能图谱,具体方法为:
4.根据权利要求3所述的移动端智能图谱构建与自适应可视化方法,其特征在于,实体集合:vs={v1,v2,…vn},每个实体vn又包含各属性信息集合:其中:
5.根据权利要求3所述的移动端智能图谱构建与自适应可视化方法,其特征在于,关系集合:es={e1,e2,…en},每个关系en又包含各属性信息集合:其中:
6.根据权利要求1所述的移动端智...
【专利技术属性】
技术研发人员:张宁鹏,任岩,杨尚基,顾爽,李宝祥,张郭昌,陈妍,常浩,魏跫然,
申请(专利权)人:苏州空天信息研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。