Co to jest plik robots.txt i jakie występują w nim polecenia, których można używać

Co to jest plik `robots.txt`?

Plik robots.txt to plik tekstowy, który znajduje się w katalogu głównym strony internetowej (np. https://twojadomena.pl/robots.txt). Jego głównym celem jest informowanie robotów sieciowych (np. botów wyszukiwarek takich jak Google, Bing), które zasoby witryny mogą lub nie mogą być indeksowane i przeszukiwane. Plik ten stosuje się w celu kontrolowania dostępu robotów do określonych sekcji strony internetowej, co może pomóc w ochronie prywatnych danych, nieukończonych sekcji lub zasobów, które nie mają być wyświetlane w wynikach wyszukiwania.

Plik robots.txt jest częścią protokołu zwanego „Robots Exclusion Protocol” (REP), który reguluje, w jaki sposób roboty internetowe indeksują i przeszukują witryny.

Struktura pliku `robots.txt`

Plik robots.txt składa się z kilku kluczowych dyrektyw. Podstawowe polecenia to:

User-agent – określa, do którego bota (robota) odnosi się polecenie.
Disallow – blokuje dostęp do określonych zasobów lub sekcji strony.
Allow – zezwala na dostęp do zasobów (częściej stosowane w kombinacji z dyrektywą Disallow).
Sitemap – wskazuje lokalizację mapy witryny (sitemap), która ułatwia botom lepsze indeksowanie strony.

Przykładowe polecenia w pliku `robots.txt`

User-agent:Polecenie to określa, do którego robota odnoszą się poniższe reguły. Przykładowo:

User-agent: *

Oznacza, że poniższe zasady odnoszą się do wszystkich robotów.

Można też określić reguły dla konkretnego robota:

User-agent: Googlebot

Oznacza, że reguły dotyczą tylko robota Google.

Disallow:

Ta dyrektywa służy do blokowania dostępu robotów do określonych części witryny. Na przykład:

Disallow: /admin/

Oznacza, że wszystkie roboty nie mogą przeszukiwać katalogu /admin/.

Aby zablokować dostęp do pliku:

Disallow: /private-file.html

Jeśli chcesz zablokować dostęp do całej witryny:

Disallow: /

Allow:

Dyrektywa Allow zezwala robotom na indeksowanie określonych zasobów, nawet jeśli szersze reguły je blokują. Przykład:

User-agent: *
Disallow: /images/
Allow: /images/logo.jpg

Oznacza, że wszystkie roboty nie mogą przeszukiwać katalogu /images/, ale logo (/images/logo.jpg) może być indeksowane.

Sitemap:

To polecenie informuje roboty, gdzie znajduje się mapa witryny (sitemap), co ułatwia im przeszukiwanie i indeksowanie strony.

Przykład:

Sitemap: https://twojadomena.pl/sitemap.xml

Przykładowy plik robots.txt

User-agent: *
Disallow: /private/
Disallow: /temp/
Allow: /public/
Sitemap: https://twojadomena.pl/sitemap.xml

W tym przykładzie:

Wszystkie roboty są blokowane przed dostępem do katalogów /private/ i /temp/,
Roboty mogą przeszukiwać katalog /public/,
Mapa witryny znajduje się pod adresem https://twojadomena.pl/sitemap.xml.

Uwagi

Nie wszystkie roboty przestrzegają reguł pliku robots.txt (np. niektóre boty wykorzystywane do nielegalnych działań mogą go ignorować).
Plik robots.txt nie zapewnia ochrony przed dostępem do plików – jeśli zasoby mają być naprawdę prywatne, należy używać odpowiednich mechanizmów zabezpieczających (np. autoryzacji użytkownika).