Robots.txt
Plik tekstowy w katalogu głównym witryny, który instruuje roboty wyszukiwarek, które strony mogą lub nie mogą crawlować.
Czym jest robots.txt?
Robots.txt to plik tekstowy umieszczony w katalogu głównym witryny (pod adresem https://example.com/robots.txt), który instruuje roboty wyszukiwarek — w tym Googlebot — które obszary serwisu mogą, a których nie powinny crawlować. Działa na podstawie protokołu REP (Robots Exclusion Protocol) ustanowionego w 1994 roku.
Robots.txt to wskazówka, nie bariera — szanujące protokół roboty przestrzegają dyrektyw, ale złośliwe boty czy skrobacze często je ignorują. Plik nie zapewnia bezpieczeństwa ani prywatności — służy wyłącznie do zarządzania crawlem i crawl budgetem.
Podstawowa składnia robots.txt
Plik składa się z bloków — każdy blok dotyczy jednego lub grupy robotów. Kluczowe dyrektywy:User-agent — określa, którego robota dotyczą zasady (* oznacza wszystkich).Disallow — ścieżki, których robot nie powinien crawlować (Disallow: /admin/).Allow — wyjątki od Disallow (Allow: /admin/publiczny/).Sitemap — wskazanie lokalizacji sitemapy XML (Sitemap: https://example.com/sitemap.xml).Crawl-delay — opóźnienie między żądaniami (Google ignoruje tę dyrektywę).
Co blokować przez robots.txt?
| Blokować | Nie blokować |
|---|---|
| /admin/, /wp-admin/ — panele administracyjne | Strony ofertowe, produktowe, blogowe |
| /checkout/, /koszyk/ — ścieżka zakupowa | CSS i JavaScript potrzebne do renderowania |
| /search?q= — wyniki wewnętrznej wyszukiwarki | Pliki graficzne używane przez strony publiczne |
| /staging/ — środowisko testowe (jeśli na tej samej domenie) | Sitemap XML — wręcz wskaż go w robots.txt |
Disallow) uniemożliwia crawlowanie, ale nie indeksowanie — jeśli inne strony linkują do zablokowanego URL, Google wie, że istnieje, i może go pokazać w wynikach bez wiedzy o treści. Jeśli chcesz, żeby stronanie pojawiała się w wynikach, użyj dyrektywy noindex, nie robots.txt. Obie dyrektywy mogą działać razem.FAQ — Robots.txt
Jak sprawdzić, czy robots.txt blokuje ważne strony?
Google Search Console → Ustawienia → Tester robots.txt pozwala wprowadzić URL i sprawdzić, czy Googlebot ma do niego dostęp. Screaming Frog podczas crawlu flaguje zablokowane przez robots.txt URL w kolumnie „Indexability". Warto też sprawdzić raport Pokrycie indeksu w GSC — strony zablokowane robots.txt pojawiają się tam z odpowiednią adnotacją.
Czy Google respektuje robots.txt w 100%?
Tak — Googlebot szanuje dyrektywy robots.txt. Jednak od 2019 roku Google przestał obsługiwać nieoficjalne dyrektywy jak Noindex w robots.txt (była obsługiwana wcześniej przez Google, nigdy oficjalnie). Jedyna obsługiwana przez Google dyrektywa metarobotów to ta umieszczona w tagu HTML <meta name="robots">lub nagłówku HTTP X-Robots-Tag.