Crawlowanie
Proces automatycznego przeglądania stron przez roboty wyszukiwarek (Googlebot). Crawlowanie poprzedza indeksowanie.
Czym jest crawlowanie?
Crawlowanie (indeksowanie pełzające, skanowanie) to automatyczny proces, w którym robot wyszukiwarki — w przypadku Google jest to Googlebot — przegląda strony internetowe, pobiera ich zawartość i zbiera dane do przetworzenia. Crawlowanie poprzedza indeksowanie: dopiero po przeskanowaniu strony Google może ją przeanalizować i zdecydować, czy i jak umieścić ją w indeksie wyszukiwarki. Strona niezindeksowana nie istnieje w wynikach wyszukiwania — nie pojawia się w SERPniezależnie od jakości swojej treści.
Mechanizm crawlowania jest podobny do sieci powiązań: Googlebot zaczyna od znanych URL (strona główna, sitemap), pobiera treść i kod strony, a następnie wyciąga z niej wszystkie hiperłącza i dodaje je do kolejki do sprawdzenia. W ten sposób odkrywa kolejne strony — dosłownie pełzając przez sieć powiązań. Dlatego linkowanie wewnętrznema tak duże znaczenie: strona, do której nie prowadzą żadne linki (orphan page), może nigdy nie zostać odkryta przez Googlebota.
Jak Googlebot crawluje — mechanizm krok po kroku
Całość procesu zaczyna się od kolejki crawlowania (crawl queue) — listy URL oczekujących na odwiedzenie. Googlebot pobiera strony z serwera, przetwarza HTML (i w osobnym procesie renderuje JavaScript), wyciąga linki i dodaje nieodwiedzone do kolejki. Następnie przetworzone dane trafiają do systemu indeksowania, który analizuje treść, rozpoznaje duplikaty (patrz: canonical URL), przypisuje wartość rankingową i decyduje o miejscu strony w indeksie.
Google utrzymuje ogromne centrum przetwarzania danych i setki milionów URL w kolejce. Nie crawluje wszystkich stron z tą samą częstotliwością: strony o wysokim autorytecie i częstych aktualizacjach (portale newsowe, duże serwisy e-commerce) odwiedzane są wielokrotnie dziennie, podczas gdy statyczne strony małych firm mogą być recrawlowane co kilka tygodni.
Crawl budget — dlaczego ma znaczenie dla dużych serwisów
Crawl budget (budżet crawlowania) to liczba stron, którą Googlebot jest gotowy i zdolny przeskanować w danej witrynie w określonym czasie. Składają się na niego dwa elementy:crawl rate limit (ograniczenie szybkości crawlowania, żeby nie przeciążyć serwera) i crawl demand (popyt na crawlowanie — jak bardzo Google uważa strony za warte odwiedzenia).
Dla małych serwisów (do kilku tysięcy stron) crawl budget zazwyczaj nie jest problemem — Googlebot przejdzie przez całą witrynę bez trudu. Problem pojawia się przy dużych e-commerce, serwisach z milionami URL parametryzowanych, lub witrynach z dużą liczbą stron niskiej jakości. Jeśli Googlebot marnuje budżet na nieistotne lub zduplikowane strony, ważne podstrony mogą być rzadziej crawlowane — co spowalnia indeksowanie nowej treści i aktualizacji.
Co blokuje crawlowanie?
| Przyczyna blokady | Mechanizm | Jak naprawić |
|---|---|---|
| Robots.txt | Dyrektywa Disallow blokuje Googlebota | Sprawdź i zaktualizuj robots.txt |
| Błędy serwera (5xx) | Googlebot nie może pobrać strony | Napraw błędy serwera, sprawdź logi |
| Zbyt wolny serwer | Timeout lub ograniczenie crawl rate | Popraw TTFB, wybierz lepszy hosting |
| Brak linkowania wewnętrznego | Orphan pages nieodkrywalne przez Googlebota | Dodaj linki wewnętrzne, zaktualizuj sitemap |
| JavaScript blokujący treść | Treść niedostępna bez renderowania JS | SSR lub pre-rendering, sprawdź w Search Console |
| Uwierzytelnienie / login | Googlebot nie ma dostępu do chronionej treści | Udostępnij publiczną wersję lub użyj FlexSampling |
Jak zoptymalizować crawlowanie swojej strony?
Zadbaj o Sitemap XML — plik sitemap to mapa drogowa dla Googlebota: lista wszystkich ważnych URL witryny z datą ostatniej modyfikacji. Wysłany do Google Search Console przyspiesza odkrywanie nowych i zmienionych stron. Sitemap nie zastępuje linkowania wewnętrznego, ale skutecznie uzupełnia proces odkrywania.
Zoptymalizuj robots.txt — sprawdź, czy robots.txt nie blokuje przypadkowo ważnych zasobów (CSS, JS, zdjęcia, całe katalogi). Typowy błąd przy migracji CMS: nowy system nadpisuje robots.txt z błędną konfiguracją Disallow. Testuj robots.txt przez narzędzie testowania w Google Search Console.
Eliminuj strony niskiej jakości — strony z thin content, tysiące parametryzowanych URL filtrów w e-commerce, zduplikowane strony bez canonical — wszystkie marnują crawl budget. Blokuj je przez robots.txt lub noindex, żeby Googlebot skupił się na wartościowych podstronach.
Popraw czas odpowiedzi serwera (TTFB) — powolny serwer ogranicza szybkość crawlowania. Google zaleca TTFB poniżej 200 ms. Wysoki TTFB obniża crawl rate limit, co sprawia, że Googlebot odwiedza Twój serwer rzadziej.
FAQ — Crawlowanie
Jak sprawdzić czy Googlebot odwiedził moją stronę?
W Google Search Console zakładka „Indeksowanie" → „Strony" pokaże stan indeksowania poszczególnych URL. Zakładka „Ustawienia" → „Crawlowanie" pozwala zobaczyć statystyki crawlowania: liczbę żądań, rozkład kodów odpowiedzi i pobrane zasoby. Dokładniejsze dane znajdziesz w logach serwera — szukaj wierszy z User-Agent zawierającym „Googlebot".
Czy mogę kontrolować częstotliwość crawlowania?
Częściowo. W Google Search Console możesz ustawić ograniczenie szybkości crawlowania (Crawl Rate Limit) — jeśli serwer jest przeciążony wizytami Googlebota. Nie możesz jednak zmusić Google do częstszego crawlowania niż wynika z popytu na Twoją treść — częstotliwość zależy od autorytetu domeny i regularności aktualizacji.
Co to są crawl errors i jak je naprawić?
Crawl errors to strony, których Googlebot nie mógł poprawnie pobrać lub przetworzyć. Najczęstsze: błędy 404 (strona nie istnieje), błędy 5xx (problem serwera), soft 404 (strona zwraca 200, ale treść sygnalizuje brak zawartości), oraz problemy z przekierowaniami. Naprawiasz je przez: zaktualizowanie wewnętrznych linków prowadzących do nieistniejących URL, prawidłową konfigurację przekierowań i usunięcie lub naprawę stron z błędami serwera.