当前位置: 首页 > 专利查询>蔡亮华专利>正文

信息处理方法和装置制造方法及图纸

技术编号:5158297 阅读:167 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种信息处理方法,通过对目标信息进行切词获取一个以上切词结果数据,在预先存储的词语语义库中查询一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识,根据目标信息和一个以上切词结果数据对应的一个以上类别标识生成信息内涵字符串。本发明专利技术还提供一种信息处理装置。采用本发明专利技术提供的信息处理方法和装置,获取的信息内涵字符串中不仅包括目标信息,而且还包括与该目标信息中的词语相关的类别,因此能够准确完整地获得目标信息的内涵。

【技术实现步骤摘要】

本专利技术涉及网络技术,尤其涉及一种信息处理方法和装置
技术介绍
互联网技术当前已经进入了海量信息时代,为了使互联网用户能够从海量信息中 快速准确地获取所需的信息,网络设备采用智能化方式向用户提供信息。作为智能化提供 信息的基础,网络设备需要预先采用信息处理方法获取信息的内涵。目前,网络设备采用的信息处理方法是,对信息的标题和/或内容进行切词,获得 该信息的标题和/或内容中的词语,以该信息的标题和/或内容中的词语作为该信息的内 涵。例如,信息为一条关于合格的境外机构投资者(Qualified Foreign Institutional hvestors,简称QFII)的新闻,具体为“证监会上半年3家外资机构获得Q FII资格”, 通过对该信息进行切词,获得以下6个词语“证监会”、“上半年”、“外资”、“机构”、“QFII”、 “资格”,网络设备获取到的该信息的内涵以字符串形式表示,该字符串为“证监会” “上半 年,,“外资” “机构” "QFII" “资格”。采用现有的信息处理方法,网络设备获取的内涵只能包括该信息的标题和/或内 容中出现的词语,而信息内涵中除了该信息的标题和/或内容中出现的词语以外,还有可 能包括与上述词语相近或相关的其它词语,采用现有的信息处理方法则无法获取这些与标 题和/或内容中词语相近或相关的其它词语,因而使得大量内涵被遗漏。仍以信息为“证监 会上半年3家外资机构获得QFII资格”为例,与该信息相关的内涵除了通过对该信息进 行切词获得的“证监会”、“上半年”、“外资”、“机构”、“QFII”、“资格”以外,还可以包括“证 券”、“金融”、“经济机构”、“国际资产组合投资”等相关或相近的词语。因此,采用现有的信 息处理方法,网络设备无法全面地获取到信息的完整内涵,获取到的信息内涵的准确度低。
技术实现思路
本专利技术实施例提供一种信息处理方法,用以解决现有技术中的缺陷,准全完整地 获取信息内涵。本专利技术实施例还提供一种信息处理装置,用以解决现有技术中的缺陷,准确完整 地获取信息内涵。本专利技术实施例提供一种信息处理方法,包括获取目标信息;对所述目标信息进行切词,获取一个以上切词结果数据;在预先存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果 数据对应的一个以上类别标识;根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成 信息内涵字符串。如上所述的信息处理方法,其中,所述在预先存储的词语语义库中查询所述一个以上切词结果数据之前还包括通过获取并分析一个以上参考信息,获取并存储词语语义库。如上所述的信息处理方法,其中,所述通过获取并分析一个以上参考信息,获取并 存储词语语义库包括采用爬虫技术从互联网获取一个以上参考信息;根据所述一个以上参考信息生成 一个以上标准化数据;对所述一个以上标准化数据进行切词,获取对应的一个以上标准化 切词结果数据;对所述一个以上标准化切词结果数据进行聚类分析;根据聚类分析结果, 分类存储所述一个以上标准化切词结果数据,生成词语语义库。如上所述的信息处理方法,其中,所述获取每个切词结果数据对应的一个以上类 别标识之后还包括获取目标信息的属性标识;所述根据所述目标信息和所述一个以上切词结果数据 对应的一个以上类别标识,生成信息内涵字符串包括将所述一个以上切词结果数据对应 的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后,生成信息内涵字符串。如上所述的信息处理方法,其中,所述在预先存储的词语语义库中查询所述一个 以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识包括根据每个切词结果数据,遍历所述词语语义库中的类别,查询并获取该切词结果 数据的一个以上匹配项;根据所述一个以上匹配项在所述词语语义库中所属的类别,标识 该切词结果数据。本专利技术实施例还提供一种信息处理装置,包括信息获取单元,用于获取目标信息;切词单元,用于对所述目标信息进行切词,获取一个以上切词结果数据;词语语义库单元,用于存储词语语义库;类别标识单元,用于在存储的词语语义库中查询所述一个以上切词结果数据,获 取每个切词结果数据对应的一个以上类别标识;内涵字符串生成单元,用于根据所述目标信息和所述一个以上切词结果数据对应 的一个以上类别标识,生成信息内涵字符串。如上所述的信息处理装置,其中,所述信息获取单元还用于获取一个以上参考信 息;所述词语语义库单元还用于通过分析所述一个以上参考信息,获取词语语义库。如上所述的信息处理装置,其中,所述词语语义库单元包括格式处理子单元,用于根据所述一个以上参考信息生成一个以上标准化数据;聚 类分析子单元,用于对所述一个以上标准化切词结果数据进行聚类分析;词语语义库生成 子单元,用于根据聚类分析结果,分类存储所述一个以上标准化切词结果数据,生成词语语 义库;所述切词单元还用于对所述一个以上标准化数据进行切词,获取对应的一个以上标 准化切词结果数据。如上所述的信息处理装置,其中,还包括属性标识单元,用于获取目标信息的属 性标识;所述内涵字符串生成单元,用于将所述一个以上切词结果数据对应的一个以上类 别标识和所述目标信息的属性标识附加在所述目标信息之后,生成信息内涵字符串。如上所述的信息处理装置,其中,所述类别标识单元具体用于根据每个切词结果数据,遍历所述词语语义库中的类 别,查询并获取该切词结果数据的一个以上匹配项,根据所述一个以上匹配项在所述词语 语义库中所属的类别,标识该切词结果数据。由上述技术方案可知,在对目标信息进行切词之后,通过在预先存储的词语语义 库中查找切词结果数据来获取切词结果数据所属的类别标识,根据该类别标识和目标信息 生成信息内涵字符串,从而使得信息内涵字符串中,不仅包括该目标信息,而且还包括与该 目标信息中的词语相关的类别,因此网络设备能够准确完整地获得目标信息的内涵。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。图1为本专利技术实施例一提供的信息处理方法的流程图;图2为本专利技术实施例二提供的信息处理方法的流程图;图3为本专利技术实施例三提供的信息处理装置的结构示意图。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例 中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一提供的信息处理方法的流程图。如图1所示,该方法至少 包括以下过程。步骤101 获取目标信息。步骤102 对上述目标信息进行切词,获取一个以上切词结果数据。步骤103 在预先存储的词语语义库中查询上述一个以上切词结果数据,获取每 个切词结果数据对应的一个以上类别标识。步骤104 根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别 标识,生成信息内涵字符串。在本专利技术实施例一本文档来自技高网
...

【技术保护点】
一种信息处理方法,其特征在于,包括:获取目标信息;对所述目标信息进行切词,获取一个以上切词结果数据;在预先存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识;根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡亮华庞然郭晓丹
申请(专利权)人:蔡亮华
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1