本发明专利技术实施例公开了一种扩充实体库的方法及装置,该方法包括:从用户的操作行为日志中获取用户的操作对象内容;从所述操作对象内容中识别实体词;对所述实体词按照预设规则进行筛选;如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。本发明专利技术实施例的技术方案能提高扩充实体库中实体词的准确性。
【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种扩充实体库的方法及装置,该方法包括:从用户的操作行为日志中获取用户的操作对象内容;从所述操作对象内容中识别实体词;对所述实体词按照预设规则进行筛选;如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。本专利技术实施例的技术方案能提高扩充实体库中实体词的准确性。【专利说明】一种扩充实体库的方法及装置
本专利技术涉及互联网信息处理
,具体涉及一种扩充实体库的方法及装置。
技术介绍
随着信息和网络技术的不断发展,人们越来越多地通过互联网进行各种知识和信 息的搜索。内容提供商在互联网提供内容使所有用户均能平等地浏览、创造、完善内容平 台。 例如百度百科、维基百科、互动百科等,能够让互联网用户通过百科网站即能找到 自己想要的全面、准确、客观的定义性信息,可供其他用户进行类似主题的查询和浏览,以 便提供相应的知识或者借鉴。例如,词条是百科网站所含内容的基础分割单位,一个词条具 有一个或多个单一的主题,用于阐述一件事物、一个人物、或者具备特定主题的组合等知识 内容。在百科网站中包括极大数量的词条,这些百科词条可以大大地提高检索的准确性和 检索的覆盖率,并且有利于从网页中提取结构化数据,可以进行垂直搜索,得到更为精确的 信息。 随着信息的广泛传播以及人们交流内容的不断扩展,新词条层出不穷。极大地发 现有价值的词条,扩充百科网站的实体库是百科产品的重要目标。常见的实现方案都是从 已有的数据中,利用文本切分来分析文本中可能存在的实体词,判断哪些实体词是百科实 体库中存在的,哪些是百科实体库中不存在的,将不存在的实体词增加到百科实体库中。但 是这种方案存在文本切分和属性识别不准确的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种扩充实体库的方法及装置,以克服现有的百科 实体库扩充存在文本切分和属性识别不准确的问题。 第一方面,本专利技术实施例提供了一种扩充实体库的方法,包括: 从用户的操作行为日志中获取用户的操作对象内容; 从所述操作对象内容中识别实体词; 对所述实体词按照预设规则进行筛选; 如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中, 以扩充所述实体库。 第二方面,本专利技术实施例还提供了一种扩充实体库的装置,包括: 操作对象内容获取单元,用于从用户的操作行为日志中获取用户的操作对象内 容; 实体词识别单元,用于从所述操作对象内容中识别实体词; 实体词筛选单元,用于对所述实体词按照预设规则进行筛选; 实体词添加单元,用于如果筛选出的实体词未出现在实体库中,则将所述实体词 添加到所述实体库中,以扩充所述实体库。 本专利技术实施例的技术方案通过从用户的操作行为日志中获取用户的操作对象内 容,从操作对象内容中识别实体词,进行筛选后,将未出现在实体库中的实体词添加到实体 库中,以扩充所述实体库。由于用户行为能反馈用户的需求,从用户行为挖掘实体词更有针 对性,而且用户行为通常与实体词有关联,因此扩充实体词的准确性更高。 【专利附图】【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所 需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施 例的内容和这些附图获得其他的附图。 图1是本专利技术实施例一所述的扩充实体库的方法流程图; 图2是本专利技术实施例二所述的扩充实体库的方法流程图; 图3是本专利技术实施例二所述的示例网页内容中用户的操作对象内容示意图; 图4是本专利技术实施例三所述的扩充实体库的装置的结构框图。 【具体实施方式】 为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面 将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅 是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在 没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 下面结合附图并通过【具体实施方式】来进一步说明本专利技术的技术方案。 实施例一 图1是本专利技术实施例一提供的扩充实体库的方法流程图,本实施例可适用于基于 操作行为日志中用户的操作对象内容进行实体库扩充的情况,本实施例所称的实体词泛指 名词与代词,也可进一步指满足预设条件的名词与代词。实体库则是用于存储各实体词的 相关信息的数据库,能过为用户提供对实体词相关数据的获取。例如,在百科中实体词指 词条的主题名称,词条是百科网站所含内容的基础分割单位,词条包括实体词、对该实体词 的解释、以及与该实体词的相关信息。此外,其他类别的实体库,如音乐实体库、商品实体 库等,也可以用音乐名称、商品名称等作为实体词,在实体库中存储各实体词的相关细节数 据,如音乐背景介绍、商品产地等。 本实施例的方法可以由配置在服务器中的扩充实体库的装置来执行,如图1所 示,本实施例所述的扩充实体库的方法包括 : S101、从用户的操作行为日志中获取用户的操作对象内容。 用户的操作行为日志是记录用户操作流的文件,包括用户点击、输入、选中、复制 等操作及操作时间等信息。例如包括对用户在搜索引擎中进行搜索时输入的检索式的记 录、对用户对网页内容进行加内链操作的记录、对用户选取网页内容中的文字、以及包括对 用户进一步地对选取的文字进行复制、粘贴等操作的记录等。 通过对用户的操作行为日志进行分析,从中获取用户的操作对象内容。例如,从用 户的操作行为日志中获取用户在搜索引擎中进行搜索时输入的检索式,获取用户在网页内 容中加内链的行为时加内链不成功的文字内容,以及获取用户在网页内容中执行文字内容 操作(例如选中、复制、粘贴等操作)时所操作的文字内容。内链,即在实体库内部,如果存 在某个实体词的相关数据,则此实体词出现在其他实体词的相关数据中时,会为此实体词 建立内部链接,以便用户方便地找到该实体词自己的相关数据。用户也可以自己为网页内 容中的实体词加入内部链接。 需要说明的是,由于用户的操作行为中某些与需要扩充的实体词关联度较低,而 某些操作行为获取实体词的概率更高,为了提高扩充实体库的效率,可预先指定用户的操 作行为的类型,从用户的操作行为日志中仅筛选出该预先指定的操作行为,来获取用户的 操作对象内容。 由于本实施例的目的是扩充实体库,所述用户的操作行为日志优选是用户对该实 体库的操作行为日志,例如,若用于扩充百科实体库,则可以优选用户对百科实体库的搜索 引擎的操作行为日志、用户对百科实体库的百科词条的网页内容的操作行为日志等。 S102、从所述操作对象内容中识别实体词。 对获取的操作对象内容进行识别获取实体词。由于用户的操作对象内容比较有针 对性,大多操作对象内容可以直接作为实体词,若某些操作对象内容不能直接识别出实体 词,可对该操作对象内容行切分后再执行实体词识别操作即可。 S103、对所述实体词按照预设规则进行筛选。 所述预设规则可根据实体库的扩充目标来设置,本文档来自技高网...
【技术保护点】
一种扩充实体库的方法,其特征在于,包括:从用户的操作行为日志中获取用户的操作对象内容;从所述操作对象内容中识别实体词;对所述实体词按照预设规则进行筛选;如果筛选出的实体词未出现在实体库中,则将所述实体词添加到所述实体库中,以扩充所述实体库。
【技术特征摘要】
【专利技术属性】
技术研发人员:梁爽,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。