【技术实现步骤摘要】
【国外来华专利技术】检测真实世界实体、真实世界实体的冒名顶替者或遵守或违反在线系统策略的非真实世界实体的页面
[0001]本公开大体上涉及在线系统,更具体地,涉及检测真实世界实体、真实世界实体的冒名顶替者(imposter)或遵守或违反在线系统的策略的非真实世界实体的页面。
[0002]背景
[0003]传统上,在线系统允许实体创建页面来建立它们在在线系统中的存在,并与在线系统的其他实体或用户关连(connect)和交换内容。可以针对真实世界实体的实体(如企业或组织)创建页面。还可以为“衍生实体”创建页面,这些实体是不为真实世界实体所拥有或授权的非真实世界的实体,但与真实世界实体相关。衍生实体的页面示例包括粉丝页面、模因(meme)页面、讨论页面等。例如,针对真实世界实体(如棒球队)的粉丝页面是与真实世界实体相关的衍生实体的页面。
[0004]共享与真实世界实体或衍生实体的特征相似的特征的页面(例如,具有相似标题/名称、相似简介/封面图像等的页面)也可能是出于故意误导在线系统用户与其交互的目的而创建的。这些页面可能由真实世界实体或其他实体的冒名顶替者创建,以利用类似页面的流行度。在上面的示例中,如果棒球队的页面具有与棒球队的名称相对应的名称或标题以及与棒球队的标志相对应的简介/封面图像,则具有相同名称/标题和简介/封面图像的另一页面可以由棒球队的冒名顶替者创建,以销售与棒球队无关的产品或服务。虽然在线系统通常采用禁止创建这些类型页面的策略(例如,禁止模仿实体的策略、禁止创建误导性页面的策略等),但是此类策略可能难以实施,因为它们 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在在线系统维护针对以下一项或更多项的多个页面:真实世界实体集合、真实世界实体集合的冒名顶替者集合以及衍生实体集合;其中所述衍生实体集合是与所述真实世界实体集合相关的非真实世界实体集合;访问包括表示所述多个页面的多个节点的图,所述多个节点中的每一个都具有指示对应的页面是针对真实世界实体、真实世界实体的冒名顶替者、遵守所述在线系统的策略的衍生实体、或者违反所述策略的衍生实体的标签;检索多个机器学习模型,所述多个机器学习模型中的每一个都至少部分地基于针对所述多个节点的集合的标签集合和对应于所述节点的集合的页面集合中的每一个页面的特征集合来训练;使用所述多个机器学习模型中的第一机器学习模型来至少部分地基于所述在线系统中维护的页面的一个或更多个特征预测该页面是否是针对衍生实体的;响应于预测到所述页面不是针对衍生实体的,使用所述多个机器学习模型中的第二机器学习模型来至少部分地基于所述页面的一个或更多个特征预测所述页面是针对真实世界实体还是真实世界实体的冒名顶替者;和响应于预测到所述页面是针对衍生实体的,使用所述多个机器学习模型中的第三机器学习模型来至少部分地基于所述页面的一个或更多个特征预测所述页面是针对遵守所述策略的衍生实体还是违反所述策略的衍生实体。2.根据权利要求1所述的方法,其中,所述策略禁止模仿实体。3.根据权利要求1所述的方法,其中,所述策略禁止创建误导性的页面。4.根据权利要求1所述的方法,其中,所述页面集合中的每一个页面的特征集合包括以下一项或更多项:所述页面集合中的每一个页面的标题、与所述页面集合中的每一个页面相关联的名称、所述页面集合中的每一个页面的主题、所述页面集合中的每一个页面的描述、与所述页面集合中的每一个页面相关联的图像、描述用户对所述页面集合中的每一个页面的参与度的信息、所述页面集合中的每一个页面的创建日期、所述页面集合中的每一个页面的粉丝计数、所述页面集合的每一个页面的粉丝与关注者的比率、发布到所述页面集合中被再次共享的每一个页面的内容的比率、描述所述页面集合中的每一个页面违反策略的信息、以及所述页面集合中的每一个页面的管理员发布到所述页面集合中的每一个页面的内容。5.根据权利要求4所述的方法,其中,描述用户对所述页面集合中的每一个页面的参与度的信息包括选自包括以下项的组的一项或更多项:由所述在线系统的一个或更多个用户发布到所述页面集合中的每一个页面的内容、所述在线系统的执行与所述页面集合中的每一个页面交互的用户的特征集合、发布到所述页面集合中的每一个页面的内容项的数量、所述页面集合中的每一个页面上的评论数量、所述页面集合中的每一个页面被共享的次数、所述在线系统的一个或更多个用户表达对所述页面集合中的每一个页面的偏好的次数、以及所述在线系统的已经与所述页面集合中的每一个页面建立连接的用户数量。6.根据权利要求4所述的方法,其中,所述页面集合中的每一个页面的管理员发布到所述页面集合中的每一个页面的内容包括以下一项或更多项:包括在所述内容中的文本和包括在所述内容中的图像的特征集合。
7.根据权利要求1所述的方法,还包括:至少部分地基于所述多个节点中的每一个节点的标签和所述多个页面中的每一个页面的特征集合来训练所述第一机器学习模型;至少部分地基于针对第一节点集合中的每一个节点的标签和对应于所述第一节点集合的第一页面集合中的每一个页面的特征集合来训练所述第二机器学习模型,针对所述第一节点集合中的每一个节点的标签指示对应的页面是针对真实世界实体还是真实世界实体的冒名顶替者;和至少部分地基于针对第二节点集合中的每一个节点的标签和对应于所述第二节点集合的第二页面集合中的每一个页面的特征集合来训练所述第三机器学习模型,针对所述第二节点集合中的每一个节点的标签指示对应的页面是针对遵守所述策略的衍生实体还是违反所述策略的衍生实体。8.根据权利要求1所述的方法,还包括:至少部分地基于已被验证为针对真实世界实体的页面和所述在线系统中维护的附加多个页面之间的相似性度量来生成包括所述多个节点的图。9.根据权利要求8所述的方法,其中,生成包括所述多个节点的图包括:至少部分地基于已被验证为针对真实世界实体的页面的特征集合,生成对应于已被验证为针对所述真实世界实体的页面的一个或更多个嵌入;至少部分地基于所述附加多个页面中的每一个页面的特征集合,生成对应于所述附加多个页面的每一个页面的一个或更多个附加嵌入;识别对应于所述多个页面的多个嵌入,其中所述多个嵌入在对应于已经被验证为是针对真实世界实体的页面的一个或更多个嵌入的阈值距离内;生成表示所述多个页面的所述多个节点;至少部分地基于所述多个页面中的每一个页面的特征集合,将标签分配给所述多个节点中的每一个节点;和至少部分地基于分配给所述多个节点中的每一个节点的标签,生成连接所述多个节点的一条或更多条边。10.根据权利要求9所述的方法,其中,所述标签被手动分配给所述多个节点中的每一个。11.一种计算机程序产品,包括具有编码在其上的指令的计算机可读存储介质,所述指令当由处理器执行时使所述处理器执行以下操作:在在线系统维护针对以下一项或更多项的多个页面:真实世界实体集合、真实世界实体集合的冒名顶替者集合以及衍生...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。