Do czego służy plik robots.txt?
3 min
3 min
Na skróty
Plik robots.txt to jedno z kluczowych rozwiązań wykorzystywanych przez webmasterów i właścicieli stron internetowych do zarządzania ruchem robotów wyszukiwarek w swojej witrynie (składowa optymalizacji SEO). Ten niewielki plik tekstowy zawiera instrukcje, które przedstawiają robotom wyszukiwarek, jakie strony powinny zostać zindeksowane, a jakie pominięte.
Plik robots.txt to mały plik tekstowy umieszczany na serwerze internetowym zawierający instrukcje dla robotów wyszukiwarek dotyczące indeksowania zawartości witryny. Działa na zasadzie tzw. protokołu robots exclusion pozwalającego właścicielom witryn na kontrolowanie ruchu robotów wyszukiwarek w swojej witrynie.
Właściciel danego serwisu poprzez plik robots.txt może określić, które foldery i podstrony mają być ignorowane przez roboty, a które powinny zostać zindeksowane. Dzięki temu można zapobiec indeksowaniu stron z powtarzającą się zawartością lub treściami, które są powielone w wielu miejscach w Internecie.
Warto pamiętać, że plik robots.txt nie blokuje całkowicie dostępu do witryny, a jedynie informuje roboty wyszukiwarek, jakie foldery i pliki powinny zostać zignorowane. Nie jest to też narzędzie służące do ochrony przed atakami hakerskimi czy innymi zagrożeniami. Plik robots.txt okazuje się rozwiązaniem kontrolującym ruch robotów wyszukiwarek.
Plik robots.txt wyróżniają trzy główne ograniczenia:
Pomimo tego, że każdy z botów zna reguły Google, wszystkie rozumieją je nieco inaczej. Aby poszczególne polecenia zostały rozpoznane, należy posługiwać się właściwą składnią określoną przez web developerów Google.
Z pozostałymi wytycznymi można zapoznać się na stronie developers.google.com.
Instrukcje w pliku robots.txt są jedynie wskazówkami, które podpowiadają robotom indeksującym, jak mają się zachowywać. To, czy crawler będzie przestrzegał instrukcji zależy wyłącznie od niego. Dlatego, jeśli chcesz mieć pewność, że poszczególne dane zostaną ukryte przed robotami indeksującymi, powinieneś zastosować inne metody blokowania dostępu (np. zabezpieczyć prywatne pliki umieszczone na serwerze za pomocą mocnego hasła.
Możesz także bez problemu usunąć wybrane treści z Google. Wystarczy, że zawnioskujesz o likwidację tych wyników. Szczegóły zweryfikujesz na stronie developers.google.com.
Niektóre strony mogą być nadal indeksowane w pliku robots.txt – nawet pomimo tego, że są niedozwolone. Warunek jest jeden – muszą prowadzić do niej linki z innych serwisów. Aspekt ten dobrze opisują web developerzy Google.
Robots.txt działa na zasadzie instrukcji, w których definiujemy, które strony powinny zostać zaindeksowane, a które nie. Jak już wcześniej wspomnieliśmy – wskazówki zostały oparte na tzw. standardzie robots exclusion protocol. W pliku robots.txt można użyć kilku poleceń, w tym między innymi:
Wysyłając zapytanie do witryny, robot wyszukiwarki najpierw dokładnie weryfikuje plik robots.txt. Jeśli witryna nie ma pliku robots.txt, crawler przegląda wszystkie podstrony, co zazwyczaj wpływa na obniżenie lub podniesienie pozycji w organicznych (naturalnych) wynikach wyszukiwania. Jeżeli natomiast roboty wykryją techniki Black Hat SEO, może on zostać ukarany dotkliwym filtrem utrudniającym pozycjonowanie.
Plik robots.txt jest ważnym elementem strategii SXO (ang. Search Experience Optimization), ponieważ pozwala kontrolować sposób, w jaki roboty wyszukiwarek przeglądają naszą witrynę. Może to wpływać na jej widoczność w wynikach wyszukiwania. Jeżeli chcesz zweryfikować poprawność wdrożenia pliku robots.txt – zdecyduj się na kompleksowy audyt SEO, w którym weźmiemy pod uwagę również strukturę adresów URL, nagłówki, mapę witryny, content, techniczne SEO i wiele więcej! Dzięki temu będziesz miał pewność odnośnie wykorzystania potencjału sprzedażowego Twojego serwisu.
Zawodowy copywriter specjalizujący się̨ w tworzeniu artykułów eksperckich dotyczących najważniejszych zagadnień związanych z SEO. Twierdzi, że nieustanne zmiany w tej dziedzinie napędzają go do dalszej pracy, a edukowanie innych pozwala mu wzrastać.