一种文本结构化的方法和装置制造方法及图纸

技术编号:13397189 阅读:133 留言:0更新日期:2016-07-23 17:36
本发明专利技术提供了一种文本结构化的方法和装置,该方法包括:确定至少一个字段,确定各个网站网址,并根据网站网址,分析出每个网站网址对应的列表页;统计并存储分析出的列表页;对列表页进行分词,形成各个词组;在各个词组中,确定与至少一个字段对应的至少一个目标词组,并为至少一个目标词组和至少一个目标词组所在的列表页之间建立索引;当接收到搜索信息时,确定搜索信息中的当前目标词组,并根据当前目标词组对应的索引,提供当前目标词组对应的列表页,有效地提高了信息提取的完整性。

【技术实现步骤摘要】

【技术保护点】
一种文本结构化的方法,其特征在于,确定至少一个字段,包括:确定各个网站网址,并根据所述网站网址,分析出每个网站网址对应的列表页;统计并存储分析出的列表页;对所述列表页进行分词,形成各个词组;在所述各个词组中,确定与所述至少一个字段对应的至少一个目标词组,并为所述至少一个目标词组和所述至少一个目标词组所在的所述列表页之间建立索引;当接收到搜索信息时,确定所述搜索信息中的当前目标词组,并根据所述当前目标词组对应的索引,提供所述当前目标词组对应的列表页。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘全志崔乐乐左少标
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1