CSłownik SEO/SEM

Crawlowanie

Proces automatycznego przeglądania stron przez roboty wyszukiwarek (Googlebot). Crawlowanie poprzedza indeksowanie.

Czym jest crawlowanie?

Crawlowanie (indeksowanie pełzające, skanowanie) to automatyczny proces, w którym robot wyszukiwarki — w przypadku Google jest to Googlebot — przegląda strony internetowe, pobiera ich zawartość i zbiera dane do przetworzenia. Crawlowanie poprzedza indeksowanie: dopiero po przeskanowaniu strony Google może ją przeanalizować i zdecydować, czy i jak umieścić ją w indeksie wyszukiwarki. Strona niezindeksowana nie istnieje w wynikach wyszukiwania — nie pojawia się w SERPniezależnie od jakości swojej treści.

Mechanizm crawlowania jest podobny do sieci powiązań: Googlebot zaczyna od znanych URL (strona główna, sitemap), pobiera treść i kod strony, a następnie wyciąga z niej wszystkie hiperłącza i dodaje je do kolejki do sprawdzenia. W ten sposób odkrywa kolejne strony — dosłownie pełzając przez sieć powiązań. Dlatego linkowanie wewnętrznema tak duże znaczenie: strona, do której nie prowadzą żadne linki (orphan page), może nigdy nie zostać odkryta przez Googlebota.

Jak Googlebot crawluje — mechanizm krok po kroku

Całość procesu zaczyna się od kolejki crawlowania (crawl queue) — listy URL oczekujących na odwiedzenie. Googlebot pobiera strony z serwera, przetwarza HTML (i w osobnym procesie renderuje JavaScript), wyciąga linki i dodaje nieodwiedzone do kolejki. Następnie przetworzone dane trafiają do systemu indeksowania, który analizuje treść, rozpoznaje duplikaty (patrz: canonical URL), przypisuje wartość rankingową i decyduje o miejscu strony w indeksie.

Google utrzymuje ogromne centrum przetwarzania danych i setki milionów URL w kolejce. Nie crawluje wszystkich stron z tą samą częstotliwością: strony o wysokim autorytecie i częstych aktualizacjach (portale newsowe, duże serwisy e-commerce) odwiedzane są wielokrotnie dziennie, podczas gdy statyczne strony małych firm mogą być recrawlowane co kilka tygodni.

Crawl budget — dlaczego ma znaczenie dla dużych serwisów

Crawl budget (budżet crawlowania) to liczba stron, którą Googlebot jest gotowy i zdolny przeskanować w danej witrynie w określonym czasie. Składają się na niego dwa elementy:crawl rate limit (ograniczenie szybkości crawlowania, żeby nie przeciążyć serwera) i crawl demand (popyt na crawlowanie — jak bardzo Google uważa strony za warte odwiedzenia).

Dla małych serwisów (do kilku tysięcy stron) crawl budget zazwyczaj nie jest problemem — Googlebot przejdzie przez całą witrynę bez trudu. Problem pojawia się przy dużych e-commerce, serwisach z milionami URL parametryzowanych, lub witrynach z dużą liczbą stron niskiej jakości. Jeśli Googlebot marnuje budżet na nieistotne lub zduplikowane strony, ważne podstrony mogą być rzadziej crawlowane — co spowalnia indeksowanie nowej treści i aktualizacji.

Co blokuje crawlowanie?

Przyczyna blokadyMechanizmJak naprawić
Robots.txtDyrektywa Disallow blokuje GooglebotaSprawdź i zaktualizuj robots.txt
Błędy serwera (5xx)Googlebot nie może pobrać stronyNapraw błędy serwera, sprawdź logi
Zbyt wolny serwerTimeout lub ograniczenie crawl ratePopraw TTFB, wybierz lepszy hosting
Brak linkowania wewnętrznegoOrphan pages nieodkrywalne przez GooglebotaDodaj linki wewnętrzne, zaktualizuj sitemap
JavaScript blokujący treśćTreść niedostępna bez renderowania JSSSR lub pre-rendering, sprawdź w Search Console
Uwierzytelnienie / loginGooglebot nie ma dostępu do chronionej treściUdostępnij publiczną wersję lub użyj FlexSampling
Crawlowanie ≠ Indeksowanie: Google może crawlować stronę (odwiedzić i pobrać) bez jej indeksowania. Jeśli strona ma tag noindex, Googlebot ją odwiedzi, ale nie umieści w indeksie. Odwrotnie — strona może być zindeksowana, nawet jeśli robots.txt blokuje Googlebota, jeśli istniały do niej linki z zewnątrz (choć bez crawlowania Google zna tylko URL, nie treść).

Jak zoptymalizować crawlowanie swojej strony?

Zadbaj o Sitemap XML — plik sitemap to mapa drogowa dla Googlebota: lista wszystkich ważnych URL witryny z datą ostatniej modyfikacji. Wysłany do Google Search Console przyspiesza odkrywanie nowych i zmienionych stron. Sitemap nie zastępuje linkowania wewnętrznego, ale skutecznie uzupełnia proces odkrywania.

Zoptymalizuj robots.txt — sprawdź, czy robots.txt nie blokuje przypadkowo ważnych zasobów (CSS, JS, zdjęcia, całe katalogi). Typowy błąd przy migracji CMS: nowy system nadpisuje robots.txt z błędną konfiguracją Disallow. Testuj robots.txt przez narzędzie testowania w Google Search Console.

Eliminuj strony niskiej jakości — strony z thin content, tysiące parametryzowanych URL filtrów w e-commerce, zduplikowane strony bez canonical — wszystkie marnują crawl budget. Blokuj je przez robots.txt lub noindex, żeby Googlebot skupił się na wartościowych podstronach.

Popraw czas odpowiedzi serwera (TTFB) — powolny serwer ogranicza szybkość crawlowania. Google zaleca TTFB poniżej 200 ms. Wysoki TTFB obniża crawl rate limit, co sprawia, że Googlebot odwiedza Twój serwer rzadziej.

FAQ — Crawlowanie

Jak sprawdzić czy Googlebot odwiedził moją stronę?

W Google Search Console zakładka „Indeksowanie" → „Strony" pokaże stan indeksowania poszczególnych URL. Zakładka „Ustawienia" → „Crawlowanie" pozwala zobaczyć statystyki crawlowania: liczbę żądań, rozkład kodów odpowiedzi i pobrane zasoby. Dokładniejsze dane znajdziesz w logach serwera — szukaj wierszy z User-Agent zawierającym „Googlebot".

Czy mogę kontrolować częstotliwość crawlowania?

Częściowo. W Google Search Console możesz ustawić ograniczenie szybkości crawlowania (Crawl Rate Limit) — jeśli serwer jest przeciążony wizytami Googlebota. Nie możesz jednak zmusić Google do częstszego crawlowania niż wynika z popytu na Twoją treść — częstotliwość zależy od autorytetu domeny i regularności aktualizacji.

Co to są crawl errors i jak je naprawić?

Crawl errors to strony, których Googlebot nie mógł poprawnie pobrać lub przetworzyć. Najczęstsze: błędy 404 (strona nie istnieje), błędy 5xx (problem serwera), soft 404 (strona zwraca 200, ale treść sygnalizuje brak zawartości), oraz problemy z przekierowaniami. Naprawiasz je przez: zaktualizowanie wewnętrznych linków prowadzących do nieistniejących URL, prawidłową konfigurację przekierowań i usunięcie lub naprawę stron z błędami serwera.