下载基于块、模式识别及行文本的通用论坛正文提取算法的技术资料

文档序号:16644711

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

论坛的文本提取,通过解析论坛的html文件获得论坛中的核心内容,从其中提取出来的文本信息对商业决策,舆论分析以及社会调查都具有重大的意义。其中这个技术有两个重要的步骤,html文本的去噪以及核心内容的识别和提取,html文本的去噪需要将ht...
该专利属于广东工业大学所有,仅供学习研究参考,未经过广东工业大学授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。