“抓取工具”(有时也称为“漫游器”或“蜘蛛”程序)是一个通用术语,泛指通过跟踪从一个网页指向另一个网页的链接自动发现并扫描网站的任何程序。Google 的主要抓取工具名叫 Googlebot。下表列出了在引荐来源网址日志中经常会看到的 Google 抓取工具的相关信息,以及在 robots.txt、robots meta
标记和 X-Robots-Tag
HTTP 规则中指定这些抓取工具的方式。
下表显示了 Google 的各种产品和服务所使用的抓取工具:
当您为网站编写抓取规则时,应在 robots.txt 文件中的 User-agent:
行内使用用户代理令牌 ,以便与相应类型的抓取工具匹配。如表中所示,某些抓取工具有多个令牌;但您只需使用与相应抓取工具匹配的 1 个令牌,即可应用规则。此列表并不完整,但涵盖了您在自己的网站上可能会看到的大多数抓取工具。
完整的用户代理字符串 是对抓取工具的完整描述,会出现在 HTTP 请求和网站日志中。
注意 :用户代理字符串可能会遭到仿冒。 了解如何验证访问者是否为 Google 抓取工具。
抓取工具
APIs-Google
用户代理令牌
APIs-Google
完整的用户代理字符串
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdsBot Mobile Web Android
dsBot Mobile Web Android 会忽略 *
通配符。
检查 Android 网页广告质量。
用户代理令牌
AdsBot-Google-Mobile
完整的用户代理字符串
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web
AdsBot Mobile Web 会忽略 *
通配符。
检查 iPhone 网页广告质量。
用户代理令牌
AdsBot-Google-Mobile
完整的用户代理字符串
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot
AdsBot 会忽略 *
通配符。
检查桌面版网页广告质量。
用户代理令牌
AdsBot-Google
完整的用户代理字符串
AdsBot-Google (+http://www.google.com/adsbot.html)
AdSense
用户代理令牌
Mediapartners-Google
完整的用户代理字符串
Mediapartners-Google
Googlebot Image
用户代理令牌
Googlebot-Image
Googlebot
完整的用户代理字符串
Googlebot-Image/1.0
Googlebot News
用户代理令牌
完整的用户代理字符串
Googlebot-News
用户代理使用各种 Googlebot 用户代理字符串。
Google 发布商中心
注意 :Google 发布商中心不遵循 robots.txt 规则。
提取并处理发布商通过 Google 发布商中心明确提供的 Feed,以便在 Google 新闻着陆页中使用。
用户代理令牌
GoogleProducer
完整的用户代理字符串
GoogleProducer; (+http://goo.gl/7y4SX)
Googlebot Video
用户代理令牌
Googlebot-Video
Googlebot
完整的用户代理字符串
Googlebot-Video/1.0
Googlebot(桌面版)
用户代理令牌
Googlebot
完整的用户代理字符串
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot(智能手机版)
用户代理令牌
Googlebot
完整的用户代理字符串
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mobile AdSense
用户代理令牌
Mediapartners-Google
完整的用户代理字符串
(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Mobile Apps Android
Mobile Apps Android 会忽略 *
通配符。
检查 Android 应用页面广告质量。遵循 AdsBot-Google
漫游器规则。
用户代理令牌
AdsBot-Google-Mobile-Apps
完整的用户代理字符串
AdsBot-Google-Mobile-Apps
Feedfetcher
注意 :Feedfetcher 不会遵循 robots.txt 规则。
用户代理令牌
FeedFetcher-Google
完整的用户代理字符串
FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)
Google Read Aloud
注意 :Google Read Aloud 不会遵循 robots.txt 规则。
用户代理令牌
Google-Read-Aloud
完整的用户代理字符串
现用代理 :
桌面版代理:
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
移动版代理:
Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers)
曾用代理(已弃用) :
google-speakr
Google Favicon
注意 :对于用户发起的请求,Google Favicon 会忽略 robots.txt 规则。
用户代理令牌
Googlebot-Image
Googlebot
完整的用户代理字符串
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Google StoreBot
用户代理令牌
Storebot-Google
完整的用户代理字符串
桌面版代理:Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
移动版代理:Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36
Google 网站验证工具
注意 :Google 网站验证工具会忽略 robots.txt 规则。
用户代理令牌
Google-Site-Verification
完整的用户代理字符串
Mozilla/5.0 (compatible; Google-Site-Verification/1.0)
关于用户代理中的 Chrome/W.X.Y.Z 的说明
表格中的用户代理字符串中有时候会出现 Chrome/W.X.Y.Z 字符串,W.X.Y.Z 实际上是一个占位符,代表该用户代理使用的 Chrome 浏览器版本,例如 41.0.2272.96
。随着时间的推移,此版本号会增大,以便与 Googlebot 使用的最新 Chromium 发布版本相匹配。
如果您要搜索日志或过滤服务器以查找使用此格式的用户代理,请用通配符表示版本号,而不是指定确切的版本号。
robots.txt 中的用户代理
如果 Google 在 robots.txt 文件中识别出多个用户代理,将会跟踪最具体的用户代理。如果您希望 Google 的所有抓取工具都能够抓取您的网页,根本不需要使用 robots.txt 文件。如果您希望禁止或允许 Google 的所有抓取工具访问您的某些内容,只需将 Googlebot 指定为用户代理即可。例如,如果您希望您的所有网页都出现在 Google 搜索中,并且您的网页能够显示 AdSense 广告,便无需使用 robots.txt 文件。同理,如果您希望 Google 的所有抓取工具都不能访问您的某些网页,可以禁止用户代理 Googlebot
,这样会一并禁止 Google 的所有其他用户代理。
不过,如果您希望更加精确地控制抓取范围,可以采取更具体的设置。例如,您可能希望您的所有网页都出现在 Google 搜索中,但不希望 Google 抓取您个人目录中的图片。在这种情况下,您可以使用 robots.txt 禁止用户代理 Googlebot-Image
抓取您个人目录中的文件(同时允许 Googlebot 抓取所有文件),具体如下:
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal
再举个例子,假设您希望自己的所有网页上都显示广告,但不希望这些网页出现在 Google 搜索中。这时,您可以禁止 Googlebot,但允许 Mediapartners-Google
用户代理,具体如下:
User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:
某些网页会使用多个 robots meta
标记针对不同的抓取工具分别指定规则,具体如下:
<meta name = "robots" content = "nofollow" >
<meta name = "googlebot" content = "noindex" >
在此示例中,Google 会综合使用所有否定规则,因此 Googlebot 将同时遵循 noindex
和 nofollow
规则。 详细了解如何控制 Google 抓取您的网站并将其编入索引的方式。
控制抓取速度
每个 Google 抓取工具都会出于特定目的以不同的速度访问网站。Google 使用算法确定每个网站的最佳抓取速度。如果 Google 抓取工具过于频繁地抓取您的网站,您可以降低抓取速度。
弃用的 Google 抓取工具
以下 Google 抓取工具已不再使用,此处仅作历史参考。
弃用的 Google 抓取工具
网页上的 Duplex
支持“网页上的 Duplex”服务。
用户代理令牌
DuplexWeb-Google
完整的用户代理字符串
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
注意 :“网页上的 Duplex”可能会忽略 *
通配符。
Web Light
每当用户在相应条件下在搜索结果中点击您的网页时,系统就会检查是否存在 no-transform
标头。Web Light 用户代理仅用于人类访问者的明确浏览请求,因此会忽略用于屏蔽自动抓取请求的 robots.txt 规则。
用户代理令牌
googleweblight
完整的用户代理字符串
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
还没有评论呢,快来抢沙发~