当前位置: 首页 > 专利查询>脸谱公司专利>正文

检测真实世界实体、真实世界实体的冒名顶替者或遵守或违反在线系统策略的非真实世界实体的页面技术方案

技术编号:31821048 阅读:63 留言:0更新日期:2022-01-12 12:16
在线系统维护页面并访问表示页面的节点图。每个节点被标记,以指示对应的页面是针对真实世界实体、真实世界实体的冒名顶替者或遵守或违反策略的衍生实体。在线系统检索机器学习模型,每个模型是基于节点集合的标签和对应页面的特征进行训练的。第一模型基于页面的特征来预测页面是否是针对衍生实体的。响应于预测到页面不是针对衍生实体,第二模型基于页面的特征来预测页面是针对真实世界实体还是冒名顶替者。响应于预测到页面是针对衍生实体的,第三模型基于页面的特征来预测衍生实体是遵守还是违反策略。遵守还是违反策略。遵守还是违反策略。

【技术实现步骤摘要】
【国外来华专利技术】检测真实世界实体、真实世界实体的冒名顶替者或遵守或违反在线系统策略的非真实世界实体的页面


[0001]本公开大体上涉及在线系统,更具体地,涉及检测真实世界实体、真实世界实体的冒名顶替者(imposter)或遵守或违反在线系统的策略的非真实世界实体的页面。
[0002]背景
[0003]传统上,在线系统允许实体创建页面来建立它们在在线系统中的存在,并与在线系统的其他实体或用户关连(connect)和交换内容。可以针对真实世界实体的实体(如企业或组织)创建页面。还可以为“衍生实体”创建页面,这些实体是不为真实世界实体所拥有或授权的非真实世界的实体,但与真实世界实体相关。衍生实体的页面示例包括粉丝页面、模因(meme)页面、讨论页面等。例如,针对真实世界实体(如棒球队)的粉丝页面是与真实世界实体相关的衍生实体的页面。
[0004]共享与真实世界实体或衍生实体的特征相似的特征的页面(例如,具有相似标题/名称、相似简介/封面图像等的页面)也可能是出于故意误导在线系统用户与其交互的目的而创建的。这些页面可能由真实世界实体或其他实体的冒名顶替者创建,以利用类似页面的流行度。在上面的示例中,如果棒球队的页面具有与棒球队的名称相对应的名称或标题以及与棒球队的标志相对应的简介/封面图像,则具有相同名称/标题和简介/封面图像的另一页面可以由棒球队的冒名顶替者创建,以销售与棒球队无关的产品或服务。虽然在线系统通常采用禁止创建这些类型页面的策略(例如,禁止模仿实体的策略、禁止创建误导性页面的策略等),但是此类策略可能难以实施,因为它们通常依赖于在线系统用户的报告,并且可能需要手动审阅报告的页面,从而延迟了可能对这些页面采取的任何策略实施动作。因此,如果没有一个更有效的过程让在线系统可以检测违反这些策略的页面,那么在线系统用户可能会被误导,与他们不感兴趣的页面进行交互。
[0005]概述
[0006]在线系统通常允许实体(如真实世界实体和衍生实体)创建页面来建立它们在在线系统中的存在,并且与在线系统的其他实体或用户关连和交换内容。共享类似于真实世界实体或衍生实体的特征的页面也可能是为了故意误导在线系统用户与其交互而创建的。由于在线系统通常采用的禁止创建这些欺骗性页面的策略可能难以实施,因此在线系统用户可能会被误导与他们不感兴趣的页面进行交互。
[0007]为了解决这个问题,在线系统检测真实世界实体的页面、真实世界实体的冒名顶替者的页面、或者遵守或违反在线系统策略的非真实世界实体的页面。更具体地,在线系统维护真实世界实体集合、真实世界实体的冒名顶替者集合和衍生实体(即,与真实世界实体相关的非真实世界实体)集合的各种页面,并访问表示页面的节点图。每个节点都被标记为指示对应的页面是针对真实世界实体、真实世界实体的冒名顶替者、或者遵守或违反在线系统的策略的衍生实体。在线系统检索多个机器学习模型,每个模型都是基于相应页面的节点和特征的集合的标签进行训练的。在线系统使用第一机器学习模型来基于页面的特征集合预测在线系统中维护的页面是否是针对衍生实体的。响应于预测到该页面不是针对衍
生实体的,在线系统使用第二机器学习模型来基于该页面的特征预测该页面是针对真实世界实体还是真实世界实体的冒名顶替者。响应于预测到该页面是针对衍生实体的,在线系统使用第三机器学习模型来基于页面的特征预测该页面是针对遵守还是违反策略的实体。
[0008]附图简述
[0009]图1是根据实施例的在线系统运行的系统环境的框图。
[0010]图2是根据实施例的在线系统的框图。
[0011]图3是根据实施例的用于检测真实世界实体、真实世界实体的冒名顶替者或者遵守或违反在线系统的策略的非真实世界实体的页面的方法的流程图。
[0012]图4是根据实施例的表示在线系统中维护的页面的示例节点图。
[0013]图5示出了根据实施例的检测真实世界实体、真实世界实体的冒名顶替者或者遵守或违反在线系统的策略的非真实世界实体的页面的示例。
[0014]附图仅出于说明的目的描绘了各种实施例。本领域技术人员从下面的讨论中将容易认识到,在不脱离本文描述的原理的情况下,可以采用本文示出的结构和方法的替代实施例。
[0015]详细描述
[0016]系统架构
[0017]图1是在线系统140的系统环境100的框图。图1所示的系统环境100包括一个或更多个客户端设备110、网络120、一个或更多个第三方系统130和在线系统140。在替代配置中,系统环境100中可以包括不同的和/或附加的组件。
[0018]客户端设备110是能够接收用户输入以及经由网络120传输和/或接收数据的一个或更多个计算设备。在一个实施例中,客户端设备110是传统的计算机系统,例如台式或膝上型计算机。替代地,客户端设备110可以是具有计算机功能的设备,例如个人数字助理(PDA)、移动电话、智能手机或其他合适的设备。客户端设备110被配置成经由网络120进行通信。在一个实施例中,客户端设备110执行允许客户端设备110的用户与在线系统140交互的应用。例如,客户端设备110执行浏览器应用,以实现客户端设备110和在线系统140之间经由网络120的交互。在另一个实施例中,客户端设备110通过在客户端设备110的本机操作系统(例如或ANDROID
TM
)上运行的应用编程接口(API)与在线系统140交互。
[0019]客户端设备110被配置为使用有线和/或无线通信系统经由网络120进行通信,网络120可以包括局域网和/或广域网的任意组合。在一个实施例中,网络120使用标准通信技术和/或协议。例如,网络120包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、3G、4G、码分多址(CDMA)、数字用户线路(DSL)等技术的通信链路。用于通过网络120通信的网络协议的示例包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)和文件传输协议(FTP)。通过网络120交换的数据可以使用任何合适的格式来表示,例如超文本标记语言(HTML)或可扩展标记语言(XML)。在一些实施例中,网络120的所有或一些通信链路可以使用任何合适的一种或多种技术来加密。
[0020]一个或更多个第三方系统130可以耦合到网络120,用于与在线系统140通信,这将在下面结合图2进一步描述。在一个实施例中,第三方系统130是应用提供者,其传送描述用于由客户端设备110执行的应用的信息,或者向客户端设备110传送数据以供在客户端设备
110上执行的应用使用。在其他实施例中,第三方系统130(例如,内容发布者)通过客户端设备110提供用于呈现的内容或其他信息。第三方系统130还可以向在线系统140传送信息,诸如广告、内容或关于第三方系统130提供的应用的信息。
[0021]图2是在线系统140的架构的框图。图2所示的在线系统140包括用户简档储存器(store本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在在线系统维护针对以下一项或更多项的多个页面:真实世界实体集合、真实世界实体集合的冒名顶替者集合以及衍生实体集合;其中所述衍生实体集合是与所述真实世界实体集合相关的非真实世界实体集合;访问包括表示所述多个页面的多个节点的图,所述多个节点中的每一个都具有指示对应的页面是针对真实世界实体、真实世界实体的冒名顶替者、遵守所述在线系统的策略的衍生实体、或者违反所述策略的衍生实体的标签;检索多个机器学习模型,所述多个机器学习模型中的每一个都至少部分地基于针对所述多个节点的集合的标签集合和对应于所述节点的集合的页面集合中的每一个页面的特征集合来训练;使用所述多个机器学习模型中的第一机器学习模型来至少部分地基于所述在线系统中维护的页面的一个或更多个特征预测该页面是否是针对衍生实体的;响应于预测到所述页面不是针对衍生实体的,使用所述多个机器学习模型中的第二机器学习模型来至少部分地基于所述页面的一个或更多个特征预测所述页面是针对真实世界实体还是真实世界实体的冒名顶替者;和响应于预测到所述页面是针对衍生实体的,使用所述多个机器学习模型中的第三机器学习模型来至少部分地基于所述页面的一个或更多个特征预测所述页面是针对遵守所述策略的衍生实体还是违反所述策略的衍生实体。2.根据权利要求1所述的方法,其中,所述策略禁止模仿实体。3.根据权利要求1所述的方法,其中,所述策略禁止创建误导性的页面。4.根据权利要求1所述的方法,其中,所述页面集合中的每一个页面的特征集合包括以下一项或更多项:所述页面集合中的每一个页面的标题、与所述页面集合中的每一个页面相关联的名称、所述页面集合中的每一个页面的主题、所述页面集合中的每一个页面的描述、与所述页面集合中的每一个页面相关联的图像、描述用户对所述页面集合中的每一个页面的参与度的信息、所述页面集合中的每一个页面的创建日期、所述页面集合中的每一个页面的粉丝计数、所述页面集合的每一个页面的粉丝与关注者的比率、发布到所述页面集合中被再次共享的每一个页面的内容的比率、描述所述页面集合中的每一个页面违反策略的信息、以及所述页面集合中的每一个页面的管理员发布到所述页面集合中的每一个页面的内容。5.根据权利要求4所述的方法,其中,描述用户对所述页面集合中的每一个页面的参与度的信息包括选自包括以下项的组的一项或更多项:由所述在线系统的一个或更多个用户发布到所述页面集合中的每一个页面的内容、所述在线系统的执行与所述页面集合中的每一个页面交互的用户的特征集合、发布到所述页面集合中的每一个页面的内容项的数量、所述页面集合中的每一个页面上的评论数量、所述页面集合中的每一个页面被共享的次数、所述在线系统的一个或更多个用户表达对所述页面集合中的每一个页面的偏好的次数、以及所述在线系统的已经与所述页面集合中的每一个页面建立连接的用户数量。6.根据权利要求4所述的方法,其中,所述页面集合中的每一个页面的管理员发布到所述页面集合中的每一个页面的内容包括以下一项或更多项:包括在所述内容中的文本和包括在所述内容中的图像的特征集合。
7.根据权利要求1所述的方法,还包括:至少部分地基于所述多个节点中的每一个节点的标签和所述多个页面中的每一个页面的特征集合来训练所述第一机器学习模型;至少部分地基于针对第一节点集合中的每一个节点的标签和对应于所述第一节点集合的第一页面集合中的每一个页面的特征集合来训练所述第二机器学习模型,针对所述第一节点集合中的每一个节点的标签指示对应的页面是针对真实世界实体还是真实世界实体的冒名顶替者;和至少部分地基于针对第二节点集合中的每一个节点的标签和对应于所述第二节点集合的第二页面集合中的每一个页面的特征集合来训练所述第三机器学习模型,针对所述第二节点集合中的每一个节点的标签指示对应的页面是针对遵守所述策略的衍生实体还是违反所述策略的衍生实体。8.根据权利要求1所述的方法,还包括:至少部分地基于已被验证为针对真实世界实体的页面和所述在线系统中维护的附加多个页面之间的相似性度量来生成包括所述多个节点的图。9.根据权利要求8所述的方法,其中,生成包括所述多个节点的图包括:至少部分地基于已被验证为针对真实世界实体的页面的特征集合,生成对应于已被验证为针对所述真实世界实体的页面的一个或更多个嵌入;至少部分地基于所述附加多个页面中的每一个页面的特征集合,生成对应于所述附加多个页面的每一个页面的一个或更多个附加嵌入;识别对应于所述多个页面的多个嵌入,其中所述多个嵌入在对应于已经被验证为是针对真实世界实体的页面的一个或更多个嵌入的阈值距离内;生成表示所述多个页面的所述多个节点;至少部分地基于所述多个页面中的每一个页面的特征集合,将标签分配给所述多个节点中的每一个节点;和至少部分地基于分配给所述多个节点中的每一个节点的标签,生成连接所述多个节点的一条或更多条边。10.根据权利要求9所述的方法,其中,所述标签被手动分配给所述多个节点中的每一个。11.一种计算机程序产品,包括具有编码在其上的指令的计算机可读存储介质,所述指令当由处理器执行时使所述处理器执行以下操作:在在线系统维护针对以下一项或更多项的多个页面:真实世界实体集合、真实世界实体集合的冒名顶替者集合以及衍生...

【专利技术属性】
技术研发人员:王昊天高拉夫
申请(专利权)人:脸谱公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1