Co to jest plik robots.txt
?
Plik robots.txt
to plik tekstowy, który znajduje się w katalogu głównym strony internetowej (np. https://twojadomena.pl/robots.txt
). Jego głównym celem jest informowanie robotów sieciowych (np. botów wyszukiwarek takich jak Google, Bing), które zasoby witryny mogą lub nie mogą być indeksowane i przeszukiwane. Plik ten stosuje się w celu kontrolowania dostępu robotów do określonych sekcji strony internetowej, co może pomóc w ochronie prywatnych danych, nieukończonych sekcji lub zasobów, które nie mają być wyświetlane w wynikach wyszukiwania.
Plik robots.txt
jest częścią protokołu zwanego „Robots Exclusion Protocol” (REP), który reguluje, w jaki sposób roboty internetowe indeksują i przeszukują witryny.
Struktura pliku robots.txt
Plik robots.txt
składa się z kilku kluczowych dyrektyw. Podstawowe polecenia to:
- User-agent – określa, do którego bota (robota) odnosi się polecenie.
- Disallow – blokuje dostęp do określonych zasobów lub sekcji strony.
- Allow – zezwala na dostęp do zasobów (częściej stosowane w kombinacji z dyrektywą Disallow).
- Sitemap – wskazuje lokalizację mapy witryny (sitemap), która ułatwia botom lepsze indeksowanie strony.
Przykładowe polecenia w pliku robots.txt
- User-agent:Polecenie to określa, do którego robota odnoszą się poniższe reguły. Przykładowo:
User-agent: *
Oznacza, że poniższe zasady odnoszą się do wszystkich robotów.
Można też określić reguły dla konkretnego robota:
User-agent: Googlebot
Oznacza, że reguły dotyczą tylko robota Google.
- Disallow:
Ta dyrektywa służy do blokowania dostępu robotów do określonych części witryny. Na przykład:
Disallow: /admin/
Oznacza, że wszystkie roboty nie mogą przeszukiwać katalogu /admin/
.
Aby zablokować dostęp do pliku:
Disallow: /private-file.html
Jeśli chcesz zablokować dostęp do całej witryny:
Disallow: /
- Allow:
Dyrektywa Allow zezwala robotom na indeksowanie określonych zasobów, nawet jeśli szersze reguły je blokują. Przykład:
User-agent: * Disallow: /images/ Allow: /images/logo.jpg
Oznacza, że wszystkie roboty nie mogą przeszukiwać katalogu /images/
, ale logo (/images/logo.jpg
) może być indeksowane.
- Sitemap:
To polecenie informuje roboty, gdzie znajduje się mapa witryny (sitemap), co ułatwia im przeszukiwanie i indeksowanie strony.
Przykład:
Sitemap: https://twojadomena.pl/sitemap.xml
Przykładowy plik robots.txt
User-agent: * Disallow: /private/ Disallow: /temp/ Allow: /public/ Sitemap: https://twojadomena.pl/sitemap.xml
W tym przykładzie:
- Wszystkie roboty są blokowane przed dostępem do katalogów
/private/
i/temp/
, - Roboty mogą przeszukiwać katalog
/public/
, - Mapa witryny znajduje się pod adresem
https://twojadomena.pl/sitemap.xml
.
Uwagi
- Nie wszystkie roboty przestrzegają reguł pliku
robots.txt
(np. niektóre boty wykorzystywane do nielegalnych działań mogą go ignorować). - Plik
robots.txt
nie zapewnia ochrony przed dostępem do plików – jeśli zasoby mają być naprawdę prywatne, należy używać odpowiednich mechanizmów zabezpieczających (np. autoryzacji użytkownika).