Czym jest plik robots.txt?

Robots.txt to plik tekstowy w katalogu głównym witryny instruujący roboty, które obszary mogą lub nie mogą crawlować. To wskazówka, nie bariera — służy do zarządzania crawl budgetem, nie do ochrony prywatności. Nie zastępuje dyrektywy noindex.

RSłownik SEO/SEM

Robots.txt

Plik tekstowy w katalogu głównym witryny, który instruuje roboty wyszukiwarek, które strony mogą lub nie mogą crawlować.

Czym jest robots.txt?

Robots.txt to plik tekstowy umieszczony w katalogu głównym witryny (pod adresem https://example.com/robots.txt), który instruuje roboty wyszukiwarek — w tym Googlebot — które obszary serwisu mogą, a których nie powinny crawlować. Działa na podstawie protokołu REP (Robots Exclusion Protocol) ustanowionego w 1994 roku.

Robots.txt to wskazówka, nie bariera — szanujące protokół roboty przestrzegają dyrektyw, ale złośliwe boty czy skrobacze często je ignorują. Plik nie zapewnia bezpieczeństwa ani prywatności — służy wyłącznie do zarządzania crawlem i crawl budgetem.

Podstawowa składnia robots.txt

Plik składa się z bloków — każdy blok dotyczy jednego lub grupy robotów. Kluczowe dyrektywy:User-agent — określa, którego robota dotyczą zasady (* oznacza wszystkich).Disallow — ścieżki, których robot nie powinien crawlować (Disallow: /admin/).Allow — wyjątki od Disallow (Allow: /admin/publiczny/).Sitemap — wskazanie lokalizacji sitemapy XML (Sitemap: https://example.com/sitemap.xml).Crawl-delay — opóźnienie między żądaniami (Google ignoruje tę dyrektywę).

Co blokować przez robots.txt?

Blokować	Nie blokować
/admin/, /wp-admin/ — panele administracyjne	Strony ofertowe, produktowe, blogowe
/checkout/, /koszyk/ — ścieżka zakupowa	CSS i JavaScript potrzebne do renderowania
/search?q= — wyniki wewnętrznej wyszukiwarki	Pliki graficzne używane przez strony publiczne
/staging/ — środowisko testowe (jeśli na tej samej domenie)	Sitemap XML — wręcz wskaż go w robots.txt

Robots.txt kontra noindex — kluczowa różnica: Zablokowanie strony przez robots.txt (Disallow) uniemożliwia crawlowanie, ale nie indeksowanie — jeśli inne strony linkują do zablokowanego URL, Google wie, że istnieje, i może go pokazać w wynikach bez wiedzy o treści. Jeśli chcesz, żeby stronanie pojawiała się w wynikach, użyj dyrektywy noindex, nie robots.txt. Obie dyrektywy mogą działać razem.

FAQ — Robots.txt

Jak sprawdzić, czy robots.txt blokuje ważne strony?

Google Search Console → Ustawienia → Tester robots.txt pozwala wprowadzić URL i sprawdzić, czy Googlebot ma do niego dostęp. Screaming Frog podczas crawlu flaguje zablokowane przez robots.txt URL w kolumnie „Indexability". Warto też sprawdzić raport Pokrycie indeksu w GSC — strony zablokowane robots.txt pojawiają się tam z odpowiednią adnotacją.

Czy Google respektuje robots.txt w 100%?

Tak — Googlebot szanuje dyrektywy robots.txt. Jednak od 2019 roku Google przestał obsługiwać nieoficjalne dyrektywy jak Noindex w robots.txt (była obsługiwana wcześniej przez Google, nigdy oficjalnie). Jedyna obsługiwana przez Google dyrektywa metarobotów to ta umieszczona w tagu HTML <meta name="robots">lub nagłówku HTTP X-Robots-Tag.

Poprzednie

Rich Snippet

Następne

ROAS (Return on Ad Spend)

Cały słownik