CN101180624A - 基于链接的垃圾检测 - Google Patents

基于链接的垃圾检测 Download PDF

Info

Publication number
CN101180624A
CN101180624A CNA2005800372291A CN200580037229A CN101180624A CN 101180624 A CN101180624 A CN 101180624A CN A2005800372291 A CNA2005800372291 A CN A2005800372291A CN 200580037229 A CN200580037229 A CN 200580037229A CN 101180624 A CN101180624 A CN 101180624A
Authority
CN
China
Prior art keywords
choice
page
document
subset
rubbish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800372291A
Other languages
English (en)
Other versions
CN101180624B (zh
Inventor
帕维尔·别尔欣
佐尔坦·I·真吉
简·佩德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Altaba Inc
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of CN101180624A publication Critical patent/CN101180624A/zh
Application granted granted Critical
Publication of CN101180624B publication Critical patent/CN101180624B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

提供了一种用于对搜索结果集中的搜索选中项进行分级的计算机执行的方法。该方法包括接收来自用户的查询以及生成与该查询相关的选中项的列表,其中,每个选中项都具有对于查询的相关度,其中,选中项具有一个或多个指向该选中项的提升链接文档,并且其中,提升链接文档影响该选中项对查询的相关度。该方法将选中项与代表指向每个选中项的提升链接文档的数量的度量相结合。然后,该方法将度量与阈值相比较,部分地基于比较来处理选中项列表以形成修正列表,并且将修正列表传送给用户。

Description

基于链接的垃圾检测
技术领域
本发明总体上涉及搜索系统,更具体地,涉及对结果集中的搜索选中项(hit)进行分级的搜索系统。
背景技术
在整个语料库(corpus)不能被吸收以及不存在或不可能存在指向期望的项目的精确指针的情况下,搜索是有用的。通常,搜索是指以下过程:设计(formulate,制定)或接受搜索查询,从文档的语料库确定匹配的文档集,并且返回该集合,或者如果该集合太大则返回该集合的某些子集。在具体的实例(本公开并不限于该实例)中,考虑搜索称为“Web”的超链接文档的集合。语料库包含许多可搜索的项目,在此称为页面,或者更一般地,称为文档。搜索引擎通常使用在接收到搜索查询之前所生成的索引从语料库中识别与搜索查询匹配的文档。“匹配”可以意指许多情况,并且搜索查询可以具有多种形式。通常,搜索查询是包含一个或多个字或术语的字符串,并且当文档包含搜索查询字符串中的一个或多个字或术语(或者所有的字或术语)时产生匹配。每个匹配文档都被称为一个选中项(hit),并且选中项的集合被称为结果集或搜索结果。语料库可以是数据库或者其他数据结构或者非结构化数据。文档通常是Web页面。
典型的Web页面索引包含数十亿个条目,所以,一般的搜索可能具有包括数百万个页面的结果集。显然,在这种情况下,搜索引擎可能需要进一步限制结果集,以使返回给查询者(其一般为人计算机用户,但不必然为这种情形)的结果集具有合理大小。限制该集合的一种方法是基于用户将仅读取或使用少数在有序的搜索结果中出现靠前的选中项的假设,按顺序显示搜索结果。
由于这种假设,许多Web页面制作者期望他们的页面在有序的搜索结果中靠前出现。搜索引擎根据相关页面的各种特征来只选择和返回最高质量的页面。由于在查询结果列表中的顶部位置(高级别)可能带来商业利益,因此某些Web页面的制作者企图恶意地提高他们页面的级别。这种具有人为地提高的级别的页面被称为“网络垃圾”页面,并且通称为“网络垃圾”。
存在许多与网络垃圾相关的技术。一种是人为地使Web页面适于被多种查询所选择。这可以通过增加具有大量与实质内容无关的以及用小的或不可见的字体表示的术语的页面来实现。这种增加使得页面更加暴露(即,可能与更多查询相关),但是不能真正地提高其对于任何特殊查询的相关度(relevance)。在这一点上,垃圾的制作者使用了另一种技术:基于更频繁地被其他页面引用的页面通常被搜索引擎认为是更好的(具有更高的相关度)的观察结果,他们向页面加入了许多引入(超)链接,也称为内部链接(inlink)。难以区分由于其较高价值而被许多其他页面引用的真正高质量页面和具有许多内部链接的网络垃圾。
网络垃圾页面的识别以及其在搜索结果列表中的后续降级对于维持或提高由搜索引擎生成的答复的质量是重要的。因而,网络垃圾检测对于搜索引擎而言是有用的工作。经常采用人工编辑以通过校验存在于搜索引擎索引中的大量页面来识别网络垃圾,但这通常是不切实际的。
因此,需要一种改进的搜索处理,其能够克服网络垃圾并能提供更符合用户需要而不是符合文档制作者的操纵的搜索结果。
发明内容
本发明的实施例提供了一种用于处理搜索请求的系统和方法,包括对构成搜索结果集的选中项进行分级。可以利用选中项的有效质量(其是指向特定页面的垃圾场(spam farm)的大小的测度(measure))以及其他参数来对选中项进行分级。
在一个实施例中,本发明提供了一种对搜索结果集中的搜索选中项分级的计算机执行的方法。该计算机执行的方法包括接收来自用户的查询并生成与查询相关的选中项的列表,其中,每个选中项对于查询都具有相关度,其中,选中项具有指向该选中项的一个或多个提升链接文档(boosting linked document),并且其中,提升链接文档影响选中项对于查询的相关度。然后,该方法将度量(metric)与选中项的至少一个子集中的每个相结合,该度量代表指向该选中项的至少一个子集中的每个并且人为地夸大了选中项的相关度的提升链接文档的数目。接着,该方法将表示指向该选中项的垃圾场的大小的度量与阈值进行比较,部分地基于该比较来处理选中项的列表以形成修正列表,并且向用户传送修正列表。
一方面,度量是第一测度和第二测度的组合。选中项的第一测度代表选中项的链接流行度(link popularity),第二测度是选中项为有信誉文档(reputable document)的可能性的测度。
另一方面,通过以下处理来生成第二测度:形成有信誉文档的种子集(seed set),有信誉文档的种子集是链接文档;为种子集中的每个文档赋予信任值;将信任值传播给由链接文档所指向的每个被链接文档;以及为每个被链接文档赋予按比例分配的信任值。
另一方面,通过以下处理来形成有信誉文档的种子集:确定多个文档中的每个的外部链接(outlink)度量,其中,外部链接度量表示每个文档的外部链接的数目;使用外部链接度量对多个文档分级;识别最高级别的文档的集合;估计最高级别文档的质量;通过从最高级别文档中排除被认为不合适的那些文档来形成修正文档集合;以及使用修正的保留集来形成种子集。
下面的详细描述与附图一起,将为本发明的性质和优点提供更好的理解。
附图说明
图1是可以用于实现本发明实施例的信息检索和通信网络的示例性框图;
图2是根据本发明一个实施例的信息检索和通信网络的示例性框图;
图3A-B是简单的垃圾场的示例性示意图。
具体实施方式
定义
除非另外定义,本文中所使用的所有技术和科学术语具有本发明所属领域的技术人员通常理解的意义。对如本文中所使用的,如下定义下列术语。
网页级别(PageRank)是一族用于将数值权重赋予由搜索引擎编入索引的超链接文档(或网络页面或网站)的著名算法。网页级别使用链接信息来为Web上的文档赋予全局重要性分数(globalimportance score)。网页级别方法已经被授予专利权并且在美国专利第6,285,999号中被描述。文档的网页级别是Web上的文档的基于链接的流行度的测度。
信任级别是与网页级别相关的链接分析技术。信任级别是用于把Web上的信誉好的页面、好的页面与网络垃圾分开的方法。信任级别是基于Web上的好的文档很少链接到垃圾的假设。信任级别包括两个步骤,一个步骤是种子选择,另一个步骤是分数传播。文档的信任级别是文档为有信誉(即,非垃圾)文档的可能性的测度。
链接或超链接是指通常通向另一个页面、另一个站点、或同一页面的另一部分的网络页面上的可点击内容。因此,可点击内容据说链接到其他页面/站点/同一页面的其他部分。当网络蜘蛛(Spider)索引网站时,其利用链接从一个页面爬行到另一个页面。
导入链接(inbound link)或内部链接/导出链接或外部链接。当站点A链接到站点B时,站点A具有导出链接,而站点B具有导入链接。对导入链接进行计数,以确定链接流行度。
Web,或者万维网(“WWW”,或简称为Web)是一种信息空间,其中称为资源的感兴趣项目由称为统一资源标识符(URI)的全局标识符来标识。术语Web通常用作互联网的同义词;然而,Web实际上是通过互联网运行的业务。
网络页面或网页是指万维网的页面或文件,通常为HTML/XHTML格式(文件扩展名通常是htm或html)并且具有能够从一个页面或部分导航到另一个页面或部分的超文本链接。网页经常使用相关的图形文件以提供说明,并且这些图形文件也可以是可点击的链接。使用网络浏览器来显示网页,并且可以设计网页,以利用经常提供运动、图形、交互、以及声音的小型应用程序(在页面内运行的子程序)。
网站是指存储在网络服务器的单个文件夹或在相关子文件夹中的网页的集合。网站通常包括一般命名为index.htm或者index.html的首页。
虚拟主机(web host)负责为由没有自己的网络服务器的个人或公司控制的网站提供服务器空间、网络服务、和文件维护。许多互联网服务提供商(ISP)会分配(allow)给用户少量的服务器空间以存放个人网络页面。
垃圾指的是大量散发的通常具有商业性质的不需要的文档或电子邮件。
网络垃圾指的是网络上的垃圾页面。制造网络垃圾的行为被称为网络作弊(web spamming)。网络作弊指的是想要误导搜索引擎以给某些文档比它们的应得级别更高级别的行为。网络上的垃圾页面是某些形式的作弊的产物。作弊的一种形式是链接作弊。
垃圾页面是接收其级别分数的重大非法提升的网络文档,因此,垃圾页面很可能出现在顶部的搜索结果中并有意误导搜索引擎。
链接作弊(link spamming)是指制造经常相互连接并形成称为垃圾场的组的垃圾文档,建立该垃圾场使得大量的提升的文档将增加一个或几个目标页面的基于链接的重要性级别。
垃圾场是指一组互连的垃圾网页,它们被生成以提升特定目标页面的基于链接的重要性分数(例如,网页级别分数)。
概述
本发明的实施例旨在提供用于基于链接的垃圾的检测方法和系统。对响应于搜索查询所产生的搜索结果进行处理,以确定选中项的有效质量。选中项的有效质量是已被建立以指向选中项从而人为地提升选中项的相对重要性的垃圾场的大小的测度。根据本发明实施例的方法和系统利用选中项的有效质量,并使那些其有效质量表明它们可能是由基于链接的垃圾人为地提升的选中项降级。对于给定的网络文档的有效质量的确定依赖于部分地估计给定的网络文档的基于链接的流行度(例如,网页级别)与可信度(trustworthiness)(例如,信任级别)之间的差异的技术的结合。接下来进一步详细描述用于确定给定的网络文档的有效质量的技术。
网络实现
图1示出了包括一个或多个可用于实现本发明实施例的客户机系统201-N的信息检索和通信网络10的总的概况。在计算机网络10中,客户机系统201-N通过互联网40或其他通信网络(例如,通过任何局域网(LAN)或广域网(WAN)连接)连接至任意数量的服务器系统501~50N。如将在本文中所描述的,根据本发明来配置客户机系统201-N,以与服务器系统501~50N中任意一个进行通信,例如,来存取、接收、检索、以及显示媒体内容和诸如网络页面的其他信息。
图1所示系统中的几个组件包括这里无需再详细解释的常规的、众所周知的组件。例如,客户机系统20可以包括台式个人计算机、工作站、便携式电脑、个人数字助理(PDA)、移动电话、或任何WAP使能的装置或者能够直接或间接连接到互联网的任何其他计算装置。客户机系统20通常运行浏览程序,例如,在移动电话、PDA、或其他无线装置等的情况下,运行Microsoft的InternetExplorerTM浏览器、Netscape NavigatorTM浏览器、MozillaTM浏览器、OperaTM浏览器、Apple的SafariTM或WAP使能浏览器,以允许客户机系统201-N的用户通过互联网40存取、处理、以及观看可从服务器系统501~50N得到的信息和页面。同样,客户机系统20通常包括一个或多个用户接口装置22(例如键盘、鼠标、触摸屏、笔等),用于与由浏览器在显示器(例如,监视屏、LCD显示器等)上提供的图形用户界面(GUI)以及与由服务器系统501~50N或其他服务器提供的页面、视窗、以及其他信息进行交互。本发明适于供互联网使用,该互联网是指特定的全球相关的网络集。然而,应该理解,可以使用其他网络来代替互联网或除了互联网以外还可以使用其他网络,例如内联网、外联网、虚拟专用网(VPN)、非基于TCP/IP的网络、任何LAN或WAN等。
根据一个实施例,客户机系统20及其所有组件是操作者可以使用包括计算机软件的应用程序进行配置的,其中,该计算机软件利用中央处理单元(例如,Intel PentiumTM处理器、AMD AthlonTM处理器、Apple的Power PC等或者多处理器)来运行。优选地,此处所描述的用于操作和配置客户机系统20以传送、处理、以及显示数据和媒体内容的计算机软件被下载并存储在硬盘上,但是众所周知,也可以将全部程序代码或部分程序代码存储在任何其他易失性或非易失性存储介质或装置(例如ROM或RAM)中,或者设置在能够存储程序代码的任何介质(例如光盘(CD)介质、数字多功能盘(DVD)介质、软盘等)上。另外,可以通过互联网从软件源(例如,从服务器系统501~50N中的一个)将全部程序代码、或者部分程序代码传送和下载到客户机系统20,或者使用任何通信介质和协议(例如,TCP/IP、HTTP、HTTPS、以太网、或其他常规介质和协议)通过任何其他网络连接(例如,外联网、VPN、LAN、或其他传统网络)来传送。
应该理解,用于实现本发明的各方面的计算机代码可以是C、C++、HTML、XML、Java、JavaScript等代码,或者任何其他合适的脚本语言(例如,VBScript),或者能在客户机系统20上执行或被编译以在客户机系统20上执行或在系统201-N上执行的任何其他合适的编程语言。在某些实施例中,没有将代码下载到客户机系统20,并且由服务器来执行所需要的代码,或者执行已存在于客户机系统20的代码。
搜索系统
图2示出了根据本发明的一个实施例的用于传送媒体内容的另一个信息检索和通信网络110。如图所示,网络110包括客户机系统120、一个或多个内容服务器系统150、以及搜索服务器系统160。在网络110中,客户机系统120通过互联网140或其他通信网络可通信地连接至服务器系统150和160。如上所述,客户机系统120及其组件被配置为通过互联网140或其他通信网络与服务器系统150和160以及其他服务器系统进行通信。
1.客户机系统
根据一个实施例,在客户机系统120上执行的客户机应用程序(表示为模块125)包括用于控制客户机系统120及其组件与服务器系统150和160进行通信以及处理和显示从服务器系统150和160接收的数据内容的指令。如上所述,虽然客户机应用程序模块125可以设置在诸如软盘、CD、DVD等任何软件存储介质上,但是,优选地,将客户机应用程序125从诸如远程服务器系统(例如,服务器系统150、服务器系统160、或其他远程服务器系统)的软件源传送和下载到客户机系统120。例如,一方面,客户机应用程序模块125可以以HTML包装(wrapper)的形式通过互联网140提供给客户机系统120,其中,HTML包装包括诸如嵌入式JavaScript或者ActivaX控件的各种控件,用于处理各种对象、画面、以及窗口中的数据并且表现(render)数据。
另外,客户机应用程序模块125包括用于处理数据和媒体内容的各种软件模块,例如用于处理搜索请求和搜索结果数据的搜索模块126,用于以文本、数据帧、以及活动窗口(例如,浏览器窗口和对话框)的形式表现数据和媒体内容的用户界面模块127,以及用于与在客户机120上执行的各种应用程序进行交互和通信的应用程序接口模块128。在客户机系统120(优选地,应用程序接口模块128被配置为与其交互)上执行的各种应用程序的实例包括各种电子邮件应用程序、即时通信(IM)应用程序、浏览器应用程序、文档管理应用程序、以及其他应用程序。此外,界面模块127可以包括浏览器,例如配置在客户机系统120上的默认浏览器或不同的浏览器。
2.搜索服务器系统
根据一个实施例,搜索服务器系统160被配置为将搜索结果数据和媒体内容提供给客户机系统120。内容服务器系统150被配置为,例如,响应于在由搜索服务器系统160提供的搜索结果页面中所选择的链接,将数据和媒体内容(例如网络页面)提供给客户机系统120。在某些变化中,搜索服务器系统160返回内容、以及到内容的链接和/或其他引用,或者返回到内容的链接和/或其他参考而不是返回内容。
一个实施例中的搜索服务器系统160涉及(reference)由例如页面、页面的链接、表示被索引的页面的内容的数据等构成的各种页面索引170。页面索引既可以通过包括自动网络爬虫、网络蜘蛛等的各种收集技术来生成,也可以通过用于在分级结构中对网络页面进行分类和分级的人工或半自动分类算法和接口程序(interface)来生成。这些技术可以在搜索服务器系统160上实现,或者在生成页面索引170并使其可用于搜索服务器系统160的单独系统(未示出)中实现。
搜索服务器系统160被配置为响应于从客户机系统(例如,从搜索模块126)接收到的各种搜索请求而提供数据。例如,搜索服务器系统160可以配备有用于对与给定的查询(例如,基于通过查询中的搜索术语的出现模式而测量的逻辑相关度;上下文标识符;页面赞助(sponsorship)等的组合)相关的网络页面进行处理和分级的搜索相关的算法。
基于链接的垃圾检测
如图2所示,搜索服务器系统160与基于链接的垃圾检测器180一起工作并将其输出(结果、建议、媒体内容等)提供给基于链接的垃圾检测器180,其中,该基于链接的垃圾检测器返回网络垃圾页面已被降级或已经从列表中被删除的修正搜索列表。根据本发明的实施例,搜索服务器系统160被配置以操作搜索引擎。搜索引擎包括三个部分:一个或多个网络蜘蛛162、数据库163、以及工具/应用程序167。网络蜘蛛162在互联网内爬行,用于收集信息;数据库163包含网络蜘蛛收集的信息和其他信息;工具/应用程序167包括应用程序(例如被用户用于搜索数据库的搜索工具166)。数据库167包含搜索工具使用的页面索引170。另外,根据本发明实施例的搜索引擎包括垃圾检测器180。如下所述,垃圾检测器180执行各种算法,并且存储用于页面索引170中的页面的网络垃圾度量181。如上所述,根据本发明实施例的垃圾检测器180估计与选中项的有效质量对应的度量,并与搜索工具166和页面索引170共同工作,然后降级那些其有效质量显示它们很可能由基于链接的垃圾人为地提升的那些选中项。给定的网络文档的有效质量的确定依赖于部分地估计给定的网络文档的基于链接的流行度(例如,网页级别)与可信度(例如,信任级别)之间的差异的技术的结合。在一个实施例中,网络垃圾检测器180处理页面索引170中的所有页面以计算用于索引中的页面的网络垃圾度量181,并将网络垃圾度量181存储在数据库163中。度量181与使文档被包含在搜索结果中的搜索查询无关。
对于给定的网络文档,通过垃圾检测器180对垃圾场的有效质量的确定部分地依赖于对给定网络文档的基于链接的流行度(例如,网页级别)与可信度(例如,信任级别)之间差别的估计。对于给定的网络文档的可信度的确定部分地依赖于给定页面离已知为可信的网络文档(即,非垃圾文档)的初始种子集有多远来确定。因此,根据本发明实施例的搜索引擎还包括种子集生成器184,其与页面索引170共同工作,以形成可信网络文档的初始种子集185。以下将更详细地描述形成网络垃圾度量181的垃圾检测器180的操作以及形成种子集185的种子集生成器184的操作。
垃圾场、网页级别、和信任级别
在该部分中,描述了垃圾场、内部链接页面级别(通常称为“网页级别”)、以及信任级别的概念。垃圾场是人为地创建的指向垃圾目标页面以提高其有效性的页面的集合。信任等级(“信任级别”)是对于高质量页面的子集具有特定远距离传送(teleportation)(即,跳跃)的网页级别的一种形式。利用本文中所描述的技术,搜索引擎可以自动发现坏的页面(网络垃圾页面),更具体地,发现通过创建人工垃圾场(引用页面集)来提升其有效性而创建的那些网络垃圾页面。在具体的实施例中,执行具有统一的远距离传送的网页级别处理和信任级别处理,并且将它们的结果作为页面或页面集的“垃圾性”的测试的一部分进行比较。另外,下面描述了构造信任级别处理的输入的新方法。
本发明的一方面旨在基于对垃圾页面周围的超链接结构的分析来识别(至少一些)垃圾页面。特别地,使用了估计垃圾场大小的新方法。由于非垃圾页面很少指向垃圾,因此,信任级别中的特定威信分配(authority distribution)导致非垃圾页面和垃圾页面之间有一定程度的区别:高质量非垃圾网络页面被认为具有由信任级别赋予的最高分数。
信任级别与公知的网络分析算法(即网页级别,其根据指向每个网络页面的其他页面的分数来将数值分数赋给该页面)有关。网页级别使用称为远距离传送的技术:根据所谓的远距离传送分布(其通常是统一分布),将一定数量的总分数传送给一些或所有页面。信任级别只为可信的(非垃圾)网络页面的小集合(即,所谓的“种子集”)提供远距离传送,而不是使用统一的远距离传送分布。实际上,这使得分数只被分配给种子集中的其他页面。
以下的描述涉及网络页面。但是,推理、实现、以及算法都同样地可应用于(1)网站(网络内容/页面以及与单个威信相关的其他类型的网络文档的逻辑组),(2)由主机网络(主机级别)代表的近似网站,其中对主机之间的图形边界(例如,一个主机图形,其中如果两个主机包含每个都通过超链接连接的至少一个页面或其他测试,则该两个主机具有链接)有一定限定(3)任何其他网络页面图形集合,和/或(4)具有反映参考强度的相关权重的链接集。
垃圾场
垃圾场是人为地创建的指向垃圾目标页面以提升其重要性的页面(或者可选地,主机)的集合。图3A-B是示出两个简单的垃圾场的示例性示意图。
图3A示出了垃圾场具有都指向目标垃圾页面s的m个页面。下面描述了用于获得对垃圾场大小的良好估计的处理。对于每个页面i,计算数字Mi,其中,数字Mi被称作页面的“有效质量”。对于网络垃圾页面,M用作提升该页面的垃圾场的大小的良好估计。
在简单垃圾场的情况下,有效质量近似为m。对于更复杂的场,就实例(图3B中所示的垃圾场)来说,有效质量M用作指示符,其中,高的M值表示垃圾场。应该认识到,虽然描述涉及网络页面,但是这些概念也可以应用于页面群、主机群等。
网页级别和信任级别
在网络页面的分析中网页级别的概念是有用的。在有关网页级别的许多可能的定义中,使用了以下的网页级别的线性系统定义:
x=cTTx+(1-c)v.    (方程1)
在方程1中:
T为转移矩阵,如果存在从页面i指向页面j的链接i→j,则其元素Tij=1/outdeg(i),否则其元素为0。这里,outdeg(i)是页面i上的外部链接的数量,用作归一化因子,以使矩阵T是随机的。
c为远距离传送常数,一般在范围0.7-0.9内取值,
x=(xi)是威信矢量,其中,下标i贯穿所有n个页面,i=1∶n(n为网络页面的数量),
v=(vi)是远距离传送矢量,假设其为概率分布,0≤vi≤1,v1+...+vn=1。
求解方程1的迭代方法是已知的。方程1具有定义了相对于远距离传送矢量而言为线性的威信矢量的优点。
对于网页级别,p是将提供对应于统一远距离传送(即,当vi=1/n时)的方程1的解的威信矢量。对于信任级别,t是将提供对应于特定远距离传送(即,其中,v使得v的k个元素为非零并且其余的为零,其中,非零元素具有可信集合中的对应下标i)的方程1的解的威信矢量。
有效质量的估算
网络页面的有效质量被用作指示符,以帮助确定网络页面是否是垃圾页面。
估算的构建
对于任一网络页面i中潜在的垃圾网页s,可以从数学上示出,
p s - t s = p s boost + b · p s leak + ( 1 - c ) / n , (方程2)
其中,方程右边的第一项是由于来自支持垃圾场的(在没有垃圾页面的情况下,该场为空或不存在)对页面的提升而产生的,而第二项是由于对有时错误地指向垃圾页面的非垃圾页面的威信遗漏而引起的。在图3A-B中,这种遗漏用表示从网络的剩余部分到给定页面的不同的意外超链接的虚线箭头来示出。对于垃圾页面s,第一项是非常主要的,因为垃圾制作者制造垃圾场的目的就是使s的网页级别变高。对于简单的场,
p s boost = m · c ( 1 - c ) n , (方程3)
类似的公式对于其他结构的场也是有效的。例如,对于具有反向链接的场,
p s boost = m · c ( 1 - c ) ( 1 - c 2 ) n , (方程4)
在下列条件下
p s leak < < p s boost (方程5)
从方程(2)和(3)如下构造关于简单垃圾场的大小m的良好估算
M s = n ( p s - t s ) c ( 1 - c ) , (方程6)
方程6定义了对任一网络页面i来说都可以被计算的有效质量Mi。如上所述,如果i是通过简单垃圾场提升的垃圾页面,则Mi近似为实际的场大小m,并且对于其他结构的场,Mi与实际场大小只相差一个常数,如方程4所示。考虑到实际垃圾场相当大(例如,欺骗性地创建数百万个提升页面)的事实,这样的差别是不重要的。
对于非垃圾页面,Mi会是绝对项不会很大或者相对于pi而言不会很大的某些数字。根据本发明实施例的基于链接的垃圾检测将揭示该问题,并且基于作为指示符的Mi,不会将这样的页面推荐为可能的网络垃圾页面。
垃圾检测处理
接下来的示例性处理用于检测基于链接的垃圾。该处理是极为简单和有效的,因为它旨在找到具有最高有效质量的页面。然而,仅当满足方程5时,有效质量才能提供对垃圾大小的良好近似,从而确保由于可信的网络页面的流行度的分配而产生的页面的基于链接的流行度远远小于由于通过垃圾页面的人为提升而产生的页面的基于链接的流行度。在方程5的条件下,垃圾检测处理能区分真正受欢迎的页面和那些通过链接垃圾场而使其受欢迎的页面。根据本发明实施例的技术确保了方程5的条件得以满足。这在下面的步骤C中实现,其中,η>1为用作阈值的算法参数。可以看出,步骤C中的大比值对应于满足方程5的页面。总的来说,示例性处理包括以下步骤:
A.对于列表(例如,与查询相关的选中项的列表,或页面索引的列表)中的所有页面(主机等)i,根据方程(6)得到其有效质量Mi
B.按照Mi的降序对页面i进行排序,并且保留或识别有序的列表的顶部部分。可选地,可以保留整个列表,尽管这样可能需要过多资源,因此,不保留低Mi的页面更加有效。该识别和/或保留可以在任一步骤完成。选择处理的一部分旨在选择同时具有高的Mi和高的Mi/pi的页面;
C.得到保留在列表中的所有页面i的比值Mi/pi
D.从列表中删除Mi/pi<η的页面i;
E.所保留的页面构成垃圾。
在实验中,这样检测到的垃圾页面实际上在大多数情况下(通过人为判定)被确认为垃圾。这意味着使用这些技术,误报率可能很低。
种子集
上述处理取决于信任级别,即方程(1)的解,其具有与所谓的种子集相关的特定远距离传送分布。种子集是一组已知为非垃圾的k个高质量网页。本发明实施例的一个方面旨在找到可信的(即,非垃圾)页面或站点的适当种子集。识别可信的网络页面的种子集的一种方法是根据人力编辑判断来指定某些网络页面。然而,人为估计是昂贵并且耗时的。在保留人工地选择种子集作为可行的备选方案的选择的同时,以下描述了半自动地构建种子集的另一种技术。
种子选择处理取决于对种子页面应该具有两个重要特征的观察,即:1)从种子页面开始并且反复地跟随所遇到的网络页面上的外部链接,应该可以到达大量其他页面;即,种子页面应该提供高的覆盖范围,以及2)种子网页的质量应该非常高,因此,遇到从非垃圾到垃圾的链接的可能性应该是最小的。
为了确保第一特征,产生了所有页面(即,在页面索引中的页面)的级别。为此,使用由方程7示出的以下线性系统。
y=cUTy+(1-c)v,    (方程7)
在该系统中
●U为逆转移矩阵,如果存在链接j→i,则其元素为Uij=1/indeg(i),否则,其元素为零。这里,indeg(i)是到页面i的内部链接的数量,用作归一化因子,以使矩阵U为随机的,
●c为远距离传送常数,一般在范围0.7-0.9内取值,
●y=(yi)为威信矢量,其中,下标i贯穿所有n个页面,i=1∶n,
●v=(vi)为远距离传送矢量,假设其为概率分布,0≤vi≤1,v1+...+vn=1。
值得注意的是,除了方程7使用逆转移矩阵U而不是正规转移矩阵T之外,由方程7所描述的系统类似于由方程1所描述的系统。逆转移矩阵对应于具有反向链接的方向性的网络图形。为此,具有统一远距离传送的方程7的解y被称为逆网页级别。逆网页级别是通过跟随页面上的外部链接而从该页面可以到达的网络的数量的测度。
为了确保种子页面的第二特征,人力编辑进一步处理具有最高逆网页级别的页面。人力编辑选择哪些候选者实际上是高质量非垃圾页面(提供如由逆网页级别测量的高覆盖范围的页面)。然后,如上所述,将人力编辑选择的页面包括进种子集中并用于信任级别计算。
示例性种子集构造处理被概括如下:
A.对于所有页面(主机等)i,根据方程(7)得到其逆网页级别yi
B.按照yi的降序对页面i进行排序,并且保留排序列表的顶部,或者否则识别并保留一组最高级别的页面
C.利用人力编辑来估计列表中所保留的页面的质量
D.从列表中删除编辑认为不合适的页面
E.所保留的页面构成种子集。
实验结果表明,所得到的种子集适于信任级别计算和基于从网页级别和信任级别得出的质量估计的垃圾检测。
本文中所描述的实施例可以涉及(reference)网站、链接、以及特定于由万维网(或其子集)充当搜索语料库的实例的其他术语。可以理解,本文中所描述的系统和方法可以适用于不同的搜索语料库(例如,电子数据库或文档储存库),并且结果可以包括内容以及对可以找到内容的位置的链接或引用。
因此,虽然已经参考特定实施例描述了本发明,应该理解本发明旨在覆盖权利要求的范围内的所有修改及其等同物。

Claims (6)

1.一种对搜索结果集中的搜索选中项进行分级的计算机执行的方法,所述方法包括:
接收来自用户的查询;
生成与所述查询相关的选中项的列表,其中,所述选中项中的每一个都具有对于所述查询的相关度,其中,所述选中项具有一个或多个指向所述选中项的提升链接文档,并且,其中,所述提升链接文档影响所述选中项对于所述查询的相关度;
将度量与所述选中项的至少一个子集中的每一个相结合,所述度量代表指向所述选中项的至少一个子集中的每一个并且人为地夸大了所述选中项的所述相关度的提升链接文档的数量;
将所述度量与阈值进行比较;
部分地基于所述比较来处理所述选中项的列表,以形成修正列表;以及
将所述修正列表传送给所述用户。
2.根据权利要求1所述的方法,其中,所述结合包括形成所述度量,包括:
形成所述选中项的至少一个子集的每一个的第一测度,所述第一测度代表所述选中项的所述子集的链接流行度;
形成所述选中项的至少一个子集的每一个的第二测度,所述第二测度表示选中项为有信誉文档的可能性;以及
形成包括所述第一测度和所述第二测度的组合,所述组合代表所述第一测度和所述第二测度之间的差别。
3.根据权利要求2所述的方法,其中,在所述接收查询之前执行所述形成所述度量。
4.根据权利要求2所述的方法,其中,所述形成第二测度包括:
形成有信誉文档的种子集,所述有信誉文档的种子集是链接文档;
将信任值赋予所述种子集中的所述文档中的每一个;
将所述信任值传播给所述链接文档指向的被链接文档中的每一个;以及
将按比例分配的信任值赋予所述被链接文档中的每一个。
5.根据权利要求4所述的方法,其中,所述形成所述种子集包括:
为多个文档中的每一个确定代表所述文档中的每一个的外部链接的数量的外部链接度量;
使用所述外部链接度量来分级所述多个文档;
识别一组最高级别的文档;
估计所述最高级别文档的质量;
通过从所述最高级别文档中去除被认为不适合的那些文档来形成修正的文档集合;以及
使用所述修正的保留集来形成种子集。
6.一种携带有指令的计算机可读介质,当所述指令由一个或多个处理器执行时,使所述一个或多处理器执行权利要求1至5中任一项所述的步骤。
CN2005800372291A 2004-10-28 2005-10-26 基于链接的垃圾检测 Expired - Fee Related CN101180624B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US62329504P 2004-10-28 2004-10-28
US60/623,295 2004-10-28
US11/198,471 2005-08-04
US11/198,471 US7533092B2 (en) 2004-10-28 2005-08-04 Link-based spam detection
PCT/US2005/038619 WO2006049996A2 (en) 2004-10-28 2005-10-26 Link-based spam detection

Publications (2)

Publication Number Publication Date
CN101180624A true CN101180624A (zh) 2008-05-14
CN101180624B CN101180624B (zh) 2012-05-09

Family

ID=35705210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800372291A Expired - Fee Related CN101180624B (zh) 2004-10-28 2005-10-26 基于链接的垃圾检测

Country Status (7)

Country Link
US (1) US7533092B2 (zh)
EP (1) EP1817697A2 (zh)
JP (1) JP4908422B2 (zh)
KR (1) KR101230687B1 (zh)
CN (1) CN101180624B (zh)
HK (1) HK1115930A1 (zh)
WO (1) WO2006049996A2 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN102591965A (zh) * 2011-12-30 2012-07-18 奇智软件(北京)有限公司 一种黑链检测的方法及装置
CN102918532A (zh) * 2010-06-01 2013-02-06 微软公司 在搜索结果排序中对垃圾的检测
CN103345499A (zh) * 2013-06-28 2013-10-09 宇龙计算机通信科技(深圳)有限公司 一种搜索引擎的搜索结果处理方法及装置
CN105373598A (zh) * 2015-10-27 2016-03-02 广州神马移动信息科技有限公司 作弊站点识别方法及装置
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN108304395A (zh) * 2016-02-05 2018-07-20 北京迅奥科技有限公司 网页作弊检测
CN108984630A (zh) * 2018-06-20 2018-12-11 天津大学 复杂网络中节点重要性在垃圾网页检测中的应用方法

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7466663B2 (en) * 2000-10-26 2008-12-16 Inrotis Technology, Limited Method and apparatus for identifying components of a network having high importance for network integrity
US7693830B2 (en) * 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20070038614A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Generating and presenting advertisements based on context data for programmable search engines
US7716199B2 (en) * 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US8125922B2 (en) * 2002-10-29 2012-02-28 Searchbolt Limited Method and apparatus for generating a ranked index of web pages
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US20060069667A1 (en) * 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US20060123478A1 (en) * 2004-12-02 2006-06-08 Microsoft Corporation Phishing detection, prevention, and notification
US7634810B2 (en) * 2004-12-02 2009-12-15 Microsoft Corporation Phishing detection, prevention, and notification
US20110197114A1 (en) * 2004-12-08 2011-08-11 John Martin Electronic message response and remediation system and method
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US8086605B2 (en) * 2005-06-28 2011-12-27 Yahoo! Inc. Search engine with augmented relevance ranking by community participation
WO2007038389A2 (en) * 2005-09-26 2007-04-05 Technorati, Inc. Method and apparatus for identifying and classifying network documents as spam
WO2007101278A2 (en) * 2006-03-04 2007-09-07 Davis Iii John S Behavioral trust rating filtering system
US7580931B2 (en) * 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval
EP2016510A1 (en) * 2006-04-24 2009-01-21 Telenor ASA Method and device for efficiently ranking documents in a similarity graph
US7634476B2 (en) * 2006-07-25 2009-12-15 Microsoft Corporation Ranking of web sites by aggregating web page ranks
US20080033797A1 (en) * 2006-08-01 2008-02-07 Microsoft Corporation Search query monetization-based ranking and filtering
US20080126331A1 (en) * 2006-08-25 2008-05-29 Xerox Corporation System and method for ranking reference documents
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US20080114753A1 (en) * 2006-11-15 2008-05-15 Apmath Ltd. Method and a device for ranking linked documents
US20080147669A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Detecting web spam from changes to links of web sites
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US7693833B2 (en) * 2007-02-01 2010-04-06 John Nagle System and method for improving integrity of internet search
US7975301B2 (en) * 2007-03-05 2011-07-05 Microsoft Corporation Neighborhood clustering for web spam detection
US7680851B2 (en) 2007-03-07 2010-03-16 Microsoft Corporation Active spam testing system
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) * 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US7756987B2 (en) * 2007-04-04 2010-07-13 Microsoft Corporation Cybersquatter patrol
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US7930303B2 (en) * 2007-04-30 2011-04-19 Microsoft Corporation Calculating global importance of documents based on global hitting times
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
US7941391B2 (en) * 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US8244737B2 (en) * 2007-06-18 2012-08-14 Microsoft Corporation Ranking documents based on a series of document graphs
US8438189B2 (en) * 2007-07-23 2013-05-07 Microsoft Corporation Local computation of rank contributions
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8041338B2 (en) * 2007-09-10 2011-10-18 Microsoft Corporation Mobile wallet and digital payment
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US20090177690A1 (en) * 2008-01-03 2009-07-09 Sinem Guven Determining an Optimal Solution Set Based on Human Selection
US8219549B2 (en) * 2008-02-06 2012-07-10 Microsoft Corporation Forum mining for suspicious link spam sites detection
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US20090307191A1 (en) * 2008-06-10 2009-12-10 Li Hong C Techniques to establish trust of a web page to prevent malware redirects from web searches or hyperlinks
EP2169568A1 (en) 2008-09-17 2010-03-31 OGS Search Limited Method and apparatus for generating a ranked index of web pages
US7974970B2 (en) * 2008-10-09 2011-07-05 Yahoo! Inc. Detection of undesirable web pages
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US8707441B1 (en) * 2010-08-17 2014-04-22 Symantec Corporation Techniques for identifying optimized malicious search engine results
US8874566B2 (en) 2010-09-09 2014-10-28 Disney Enterprises, Inc. Online content ranking system based on authenticity metric values for web elements
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
CN102214245B (zh) * 2011-07-12 2013-09-11 厦门大学 基于关键词共现的研究热点图论分析方法
CN102222115B (zh) * 2011-07-12 2013-09-11 厦门大学 基于关键词共现的研究热点边连通度分析方法
US9002832B1 (en) 2012-06-04 2015-04-07 Google Inc. Classifying sites as low quality sites
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
CN103412922B (zh) * 2013-08-12 2017-02-08 曙光信息产业股份有限公司 一种数据查询处理方法
WO2016155007A1 (en) * 2015-04-03 2016-10-06 Yahoo! Inc. Method and system for monitoring data quality and dependency

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4167652A (en) 1974-10-17 1979-09-11 Telefonaktiebolaget L M Ericsson Method and apparatus for the interchanges of PCM word
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6728752B1 (en) 1999-01-26 2004-04-27 Xerox Corporation System and method for information browsing using multi-modal features
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US6985431B1 (en) 1999-08-27 2006-01-10 International Business Machines Corporation Network switch and components and method of operation
US6404752B1 (en) 1999-08-27 2002-06-11 International Business Machines Corporation Network switch using network processor and methods
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US6865575B1 (en) 2000-07-06 2005-03-08 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US20040193503A1 (en) 2000-10-04 2004-09-30 Eder Jeff Scott Interactive sales performance management system
US7197470B1 (en) 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
US20040236673A1 (en) 2000-10-17 2004-11-25 Eder Jeff Scott Collaborative risk transfer system
CA2323883C (en) 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
US8509086B2 (en) 2001-06-20 2013-08-13 Arbor Networks, Inc. Detecting network misuse
US7089252B2 (en) 2002-04-25 2006-08-08 International Business Machines Corporation System and method for rapid computation of PageRank
US20040002988A1 (en) 2002-06-26 2004-01-01 Praveen Seshadri System and method for modeling subscriptions and subscribers as data
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050210008A1 (en) 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US7343374B2 (en) * 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
WO2006036781A2 (en) * 2004-09-22 2006-04-06 Perfect Market Technologies, Inc. Search engine using user intent
US20060085391A1 (en) 2004-09-24 2006-04-20 Microsoft Corporation Automatic query suggestions
US20060218010A1 (en) 2004-10-18 2006-09-28 Bioveris Corporation Systems and methods for obtaining, storing, processing and utilizing immunologic information of individuals and populations
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
CN102918532A (zh) * 2010-06-01 2013-02-06 微软公司 在搜索结果排序中对垃圾的检测
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN102571768B (zh) * 2011-12-26 2014-11-26 北京大学 一种钓鱼网站检测方法
CN102591965A (zh) * 2011-12-30 2012-07-18 奇智软件(北京)有限公司 一种黑链检测的方法及装置
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN103345499A (zh) * 2013-06-28 2013-10-09 宇龙计算机通信科技(深圳)有限公司 一种搜索引擎的搜索结果处理方法及装置
CN105373598A (zh) * 2015-10-27 2016-03-02 广州神马移动信息科技有限公司 作弊站点识别方法及装置
CN108304395A (zh) * 2016-02-05 2018-07-20 北京迅奥科技有限公司 网页作弊检测
CN108984630A (zh) * 2018-06-20 2018-12-11 天津大学 复杂网络中节点重要性在垃圾网页检测中的应用方法
CN108984630B (zh) * 2018-06-20 2021-08-24 天津大学 复杂网络中节点重要性在垃圾网页检测中的应用方法

Also Published As

Publication number Publication date
KR101230687B1 (ko) 2013-02-07
JP2008519328A (ja) 2008-06-05
JP4908422B2 (ja) 2012-04-04
KR20070085477A (ko) 2007-08-27
CN101180624B (zh) 2012-05-09
HK1115930A1 (en) 2008-12-12
US7533092B2 (en) 2009-05-12
WO2006049996A3 (en) 2007-09-27
EP1817697A2 (en) 2007-08-15
WO2006049996A2 (en) 2006-05-11
US20060095416A1 (en) 2006-05-04

Similar Documents

Publication Publication Date Title
CN101180624B (zh) 基于链接的垃圾检测
CN100565509C (zh) 使用点击距离对搜索结果分级的系统和方法
Tyler et al. Large scale query log analysis of re-finding
CN102122295B (zh) 用于执行文档搜索的方法、服务器设备和系统
JP5431727B2 (ja) 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
Teevan et al. Understanding and predicting personal navigation
US8538989B1 (en) Assigning weights to parts of a document
CN101828185B (zh) 部分地基于多个点进特征来排名并提供搜索结果
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
US7908234B2 (en) Systems and methods of predicting resource usefulness using universal resource locators including counting the number of times URL features occur in training data
US20080104113A1 (en) Uniform resource locator scoring for targeted web crawling
EP1653380A1 (en) Web page ranking with hierarchical considerations
US20100057717A1 (en) System And Method For Generating A Search Ranking Score For A Web Page
US20020129014A1 (en) Systems and methods of retrieving relevant information
US20050060311A1 (en) Methods and systems for improving a search ranking using related queries
US20080228675A1 (en) Multi-tiered cascading crawling system
US20080281817A1 (en) Accounting for behavioral variability in web search
CN101770521A (zh) 一种用于垂直搜索引擎的聚焦相关度排序方法
EP1618503A2 (en) Concept network
CN102779136A (zh) 一种信息搜索的方法和装置
US20110131536A1 (en) Generating and ranking information units including documents associated with document environments
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
KR20100132376A (ko) 스니펫 제공 장치 및 방법
Stuart et al. Investigating triple helix relationships using URL citations: a case study of the UK West Midlands automobile industry
Sreeja et al. Review of web crawlers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1115930

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1115930

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: FEIYANG MANAGEMENT CO., LTD.

Free format text: FORMER OWNER: YAHOO CORP.

Effective date: 20150331

TR01 Transfer of patent right

Effective date of registration: 20150331

Address after: The British Virgin Islands of Tortola

Patentee after: Yahoo! Inc.

Address before: California, USA

Patentee before: YAHOO! Inc.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120509

Termination date: 20211026