【技术实现步骤摘要】
【技术保护点】
一种基于宽度优先搜索策略更新图书信息的方法,其特征在于包括如下步骤:1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1, ...
【技术特征摘要】
【专利技术属性】
技术研发人员:张宇,
申请(专利权)人:大连易维立方技术有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。