System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能领域,具体而言,涉及一种基于知识图谱及文本图像识别技术的数字阅读系统。
技术介绍
1、随着信息技术的飞速发展,数字阅读已成为现代人获取信息、学习知识和休闲娱乐的重要方式。
2、在数字阅读领域,尤其是金融行业,传统的阅读方式已无法满足日益增长的信息处理需求。随着金融机构内部资料和外部市场信息的海量积累,员工面临着信息过载、知识吸收效率低下、个性化阅读需求未被满足等挑战。当前市场上的数字阅读平台虽尝试引入人工智能技术,但其在自动化文本理解、个性化推荐、沉浸式阅读体验等方面仍存在不足。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请提供了一种基于知识图谱及文本图像识别技术的数字阅读系统,以至少解决相关数字阅读系统的金融知识处理效率低下的技术问题。
2、根据本申请的一个方面,提供了一种基于知识图谱及文本图像识别技术的数字阅读系统,包括:收集模块,用于从多个金融数据源收集金融数据以及第一金融文档;构建模块,用于在金融数据中识别金融领域的目标实体,抽取目标实体之间的语义关系,以目标实体作为节点,语义关系作为边,构建金融知识图谱的图结构;第一解析模块,用于接收用户上传的第二金融文档,基于文本图像识别技术识别第二金融文档中的目标关键词,并按照预设层级结构生成目标关键词对应的思维导图;第二解析模块,用于识别第一金融文档中的文档元素,并对文档元素进行结构化解析,得到解析结果,其中,文档元素包括以下至少之一:文本段落、表格
3、可选地,构建模块,在金融数据中识别金融领域的目标实体,抽取目标实体之间的语义关系,以目标实体作为节点,语义关系作为边,构建金融知识图谱的图结构,包括如下步骤:对金融数据中的文本数据进行预处理,其中,预处理包括:去除噪声字符、统一文本格式、处理缩写词和同义词替换;运用命名实体识别算法,对预处理后的文本数据进行扫描,识别出其中的金融领域的目标实体,其中,目标实体包括:金融机构、金融产品、金融市场参与者、经济指标;利用预设金融领域知识规则,抽取目标实体之间的语义关系,其中,语义关系包括:属于关系、影响关系、交易关系,属于关系包括:某金融产品属于某金融机构,影响关系包括:某经济指标影响某金融市场,交易关系包括:金融市场参与者之间的交易关系。
4、可选地,问题处理模块,接收查询问题,若查询问题中包括与知识图谱相关的第二预设关键词,在图结构中确定查询问题对应的知识图谱子图,并展示知识图谱子图,包括如下步骤:接收用户输入的查询问题,若查询问题中包括与知识图谱相关的第二预设关键词,将查询问题转化为针对图结构的查询语句;执行查询语句,在图结构中确定查询问题对应的知识图谱子图,并通过图形化界面展示知识图谱子图。
5、可选地,解析模块,对文档元素进行结构化解析,得到解析结果,包括如下步骤:对于文档元素中的表格,解析表格的结构信息,其中,结构信息包括:行数、列数、行宽度、列宽度,提取表格内的文本内容,确定表格内的文本内容的重要性指标;对于文档元素中的图形,识别图形的类型以及数据标识。
6、可选地,排版模块,根据解析结果和屏幕信息,确定排版策略,包括如下步骤:对于文档元素中的文本段落,根据屏幕宽度调整行间距和字间距;对于文档元素中的表格,当屏幕宽度小于第一预设阈值时,若表格宽度超出屏幕,采用滚动条显示表格内容,或者,根据表格内的文本内容的重要性指标对列进行选择性隐藏,并提供展开全部列的操作按钮;对于文档元素中的图形,根据屏幕空间和图形类型,按比例缩放图形大小。
7、可选地,水印添加模块,向第一元素中添加数字水印,包括如下步骤:对于第一元素中的文本段落,获取文档主题,确定与文档主题的关联性指标最高的主题关键词,根据主题关键词在文本段落的出现频率,确定文本段落的重要性得分;在重要性得分小于第三预设阈值的文本段落的第一预设位置处添加第一数量的数字水印,在重要性得分大于第三预设阈值的文本段落的第二预设位置处添加第二数量的数字水印,其中,第二数量大于第一数量;对于第一元素中的表格,确定表格的表格长度和表格宽度,在表格长度大于第四预设阈值和/或表格宽度大于第五预设阈值的情况下,在第一行、第一列、最后一行以及最后一列添加数字水印,在表格长度不大于第四预设阈值和/或表格宽度不大于第五预设阈值的情况下,在表格的第三预设位置处添加数字水印;对于第一元素中的图形,将图形划分为多个子块,对每个子块进行离散余弦变换,得到多个频域系数,选择频域系数在预设区间内的目标区域,根据数字水印对目标区域内的频域系数进行修改,并在完成修改后,通过逆离散余弦变换将图形转换回空间域。
8、可选地,基于知识图谱及智能排版的电子阅读系统还包括:检测模块,用于在展示目标元素之后,执行如下步骤:通过预训练机器学习模型确定移动终端设备是否对满足预设规则的目标数据执行截屏行为和/或复制行为,其中,预训练机器学习模型为通过如下方法进行训练所得到的:采集截屏事件数据以及复制事件数据,对截屏事件数据进行特征提取,得到第一特征,其中,第一特征包括:截屏时间、截屏区域、截屏方式;对复制事件数据进行特征提取,得到第二特征,其中,第二特征包括:复制内容的数据类型、复制来源、复制时间;使用第一特征和第二特征对机器学习模型进行训练,在训练过程中,根据模型的损失函数计算预测结果与真实标签之间的差异,通过随机梯度下降算法,调整模型的参数,以最小化损失函数,并在损失函数满足预设条件的情况下,得到完成训练的机器学习模型;在确定移动终端设备对目标数据执行截屏行为和/或复制行为的情况下,确定目标数据所在文档的数字水印,提取数字水印中的版权信息,并生成包括版权信息的目标告警消息。
9、可选地,基于知识图谱及智能排版的电子阅读系统还包括:个性化推荐模块,用于执行如下步骤:在前端交互界面收集用户在数字阅读平台上的阅读行为数据,其中,阅读行为数据包括:阅读历史数据、收藏偏好数据以及搜索记录数据,阅读历史数据用于记录用户阅读过的第一金融文档的标识信息、阅读开始时间以及阅读结束时间,收藏偏好数据用于记录用户收藏的文档类别信息、标识信息以及收藏时间,搜索记录数据用于记录用户输入的搜索关键词以及搜索时间;通过加密的数据传输通道,将阅读行为数据传输至后端数据存储中心;对阅读行为数据进行数据清洗以及归一化处理,将处理后的本文档来自技高网...
【技术保护点】
1.一种基于知识图谱及文本图像识别技术的数字阅读系统,其特征在于,包括:
2.根据权利要求1所述的系统,其特征在于,构建模块,在所述金融数据中识别金融领域的目标实体,抽取所述目标实体之间的语义关系,以所述目标实体作为节点,所述语义关系作为边,构建金融知识图谱的图结构,包括如下步骤:
3.根据权利要求2所述的系统,其特征在于,问题处理模块,接收查询问题,若所述查询问题中包括与知识图谱相关的第二预设关键词,在所述图结构中确定所述查询问题对应的知识图谱子图,并展示所述知识图谱子图,包括如下步骤:
4.根据权利要求1所述的系统,其特征在于,解析模块,对所述文档元素进行结构化解析,得到解析结果,包括如下步骤:
5.根据权利要求4所述的系统,其特征在于,排版模块,根据所述解析结果和所述屏幕信息,确定排版策略,包括如下步骤:
6.根据权利要求1所述的系统,其特征在于,水印添加模块,向所述第一元素中添加数字水印,包括如下步骤:
7.根据权利要求6所述的系统,其特征在于,所述基于知识图谱及智能排版的电子阅读系统还包括:检测模块
8.根据权利要求1所述的系统,其特征在于,所述基于知识图谱及智能排版的电子阅读系统还包括:个性化推荐模块,用于执行如下步骤:
9.根据权利要求1所述的系统,其特征在于,所述第一解析模块,还用于执行如下步骤:
...【技术特征摘要】
1.一种基于知识图谱及文本图像识别技术的数字阅读系统,其特征在于,包括:
2.根据权利要求1所述的系统,其特征在于,构建模块,在所述金融数据中识别金融领域的目标实体,抽取所述目标实体之间的语义关系,以所述目标实体作为节点,所述语义关系作为边,构建金融知识图谱的图结构,包括如下步骤:
3.根据权利要求2所述的系统,其特征在于,问题处理模块,接收查询问题,若所述查询问题中包括与知识图谱相关的第二预设关键词,在所述图结构中确定所述查询问题对应的知识图谱子图,并展示所述知识图谱子图,包括如下步骤:
4.根据权利要求1所述的系统,其特征在于,解析模块,对所述文档元素进行结构化解析,得到解析结果,包括如下...
【专利技术属性】
技术研发人员:丁志勇,庞博,张启明,沈雨欣,薛畅,李博华,李文建,蒋文丽,
申请(专利权)人:北京银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。