【技术实现步骤摘要】
【技术保护点】
一种平行网页获取方法,其特征在于,包括:使用HTML结构信息实现对平行网站中平行网页的同步递归访问,使用URL模式优化遍历平行网站的路径;对同步访问的候选平行网页对,使用分类器进行判定,对判定为平行网页的网页对,学习其URL对应的命名模式,使用基于HTML标记序列对齐的技术抽取平行网页对中的双语文本和下级候选网页链接对,利用学习到的URL命名模式构建候选平行网页链接对优先队列;对是否应该终止平行网页发现进行判定,最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。