Czym jest plik Robots.txt?
Na skróty
Plik robots.txt ma zdecydowana większość stron internetowych. Pomimo jego częstej obecności w Internecie, nie zawsze jego istota i rola jest zrozumiała dla administratorów witryn. To błąd, ponieważ plik ten jest bardzo ważny z punktu widzenia pozycjonowania strony w wynikach wyszukiwania Google, znacząco przyspieszając proces jej indeksowania.
W tym artykule przeczytasz o tym, czym dokładnie jest plik robots, jakie ma ograniczenia, a także, w jaki sposób może przebiegać generowanie pliku dla Twojej strony internetowej. Zapraszamy do lektury!
Źródło: https://unsplash.com/photos/person-using-black-laptop-computer-eMemmpUojlw
Plik robots – definicja
Robots.txt to tekstowy plik w głównym katalogu strony internetowej, tworzony po to, aby roboty wyszukiwarek, np. roboty indeksujące Google, wiedziały czego nie powinny robić na Twojej stronie. Czasem nazywa się go także katalogiem głównym domeny. Te swoiste instrukcje określają, które części witryny mogą być indeksowane, a które strony powinny zostać pominięte.
Pliku robots.txt żywa się go głównie po to, aby strona internetowa nie stała się przeciążona żądaniami. Zarządzanie ruchem robotów indeksujących i określone zasady dotyczące ich działania mają zatem spore znaczenie dla odpowiedniego funkcjonowania strony.
Jak działa robot Google?
Proces wyszukiwania nowych materiałów, które mogą znaleźć się w wyszukiwarce Google, to praca, którą wykonują właśnie roboty wyszukiwarek. Podążają one za linkami, a następnie indeksują całą zawartość robots.txt danej strony z katalogu Google.
Praca robota Google polega zatem na przeglądaniu, a także analizowaniu stron internetowych po to, aby następnie dodać odpowiednie informacje o nich w wyszukiwarkach.
Do czego służy plik robots?
Jak już wspomnieliśmy, plik robots.txt to rodzaj drogowskazu dla robotów indeksujących, takich jak Googlebot. Dzięki temu narzędziu możesz zarządzać tym, jak wyszukiwarki postrzegają strony i chronić wrażliwe dane oraz optymalizować proces indeksowania.
Jakie konkretne zastosowania ma robots txt?
Blokowanie indeksowania określonego katalogu lub pliku robotom
Pliki robots zapobiegają indeksowaniu tych stron na Twojej witrynie, które np. zawierają zduplikowane treści, wewnętrzne narzędzia czy wersje robocze, których nie chcesz prezentować użytkownikom. Możesz więc np. zablokować indeksowanie wszystkich adresów URL zaczynających się od /admin/ bądź te adresy URL, które zawierają ciąg znaków „projekt”.
Tworzenie wersji witryny tylko dla robotów
Możliwe jest stworzenie takiej wersji strony, która będzie dostępna wyłącznie dla robotów. Wówczas możesz zdecydować, aby np. pokazywać robotom pełną wersję strony, zaś internautom wyłącznie jakąś jej część.
Aby roboty wyszukiwarek mogły indeksować określone części witryny, użyj dyrektywy allow (Googlebot Allow).
Ochrona przed nadmiernym obciążeniem serwera
Używając pliku robots.txt można określić także to, jak często robot Google ma pojawiać się na witrynie. To zastosowanie ma szczególne znaczenie w przypadku stron o dynamicznym charakterze.
Ukrywanie treści przed konkretnymi robotami
Potrzebujesz, aby witryna (lub jakiejś jej elementy) była zablokowana dla wybranych robotów? Nic trudnego. Przykładowo, możesz uniemożliwić indeksowanie strony robotom z określonych krajów.
Tworzenie sitemap dla robotów
Plik robots.txt umożliwia Ci również stworzenie sitemap, czyli mapy strony w formacie xml, składającej się wyłącznie z tych adresów URL, które mają być indeksowane przez roboty indeksujące. Dzięki podaniu w pliku robots.txt dokładnej lokalizacji pliku sitemapy, robot wyszukiwarki łatwiej odnajdzie i odpowiednio przetworzy zawarte w mapie informacje.
Kiedy potrzebny jest plik robots?
Jeżeli jakaś strona nie powinna być w indeksie wyszukiwarki, należy umieścić ją w pliku robots.txt. Taki zabieg jest stosowany np. przez specjalistów SEO, którzy optymalizują witrynę podczas pozycjonowania. Należy zablokować te strony, których obecność w wyszukiwarce jest zbędna (np. koszyk zakupowy w e-commerce).
Plik robots jest najbardziej potrzebny na dużych i skomplikowanych stronach internetowych. Zwróć uwagę na to, że skanowanie witryny, która zawiera tysiące podstron, może zajmować wiele miesięcy. Dzięki obecności pliku robots.txt proces ten przebiega znacznie szybciej. Nie na każdą podstronę Twojej witryny muszą przecież zaglądać roboty wyszukiwarki.
Plik robots ustawia się także podczas realizacji strategii SXO, której elementami składowymi są SEO oraz UX.
Jak stworzyć plik robots.txt?
Jest parę sposobów na stworzenie pliku robots.txt. Wiele zależy od aktualnej sytuacji strony oraz Twoich potrzeb. Poniżej omawiamy instrukcje dotyczące trzech najbardziej popularnych rozwiązań.
Generator pliku robots
Jedną z możliwości jest skorzystania z generatorów pliku robots.txt. Dzięki ich istnieniu nie musisz znać składni pliku. Konieczne jest jedynie posiadanie wiedzy, jakie adresy chcesz zablokować.
Stworzenie pliku robots.txt ręcznie
Drugim wariantem jest tworzenie pliku ręcznie. To najpopularniejsza metoda, wymagająca jednak znajomości wszystkich elementów związanych z działaniem pliku robots.
Utworzenie dynamicznego pliku robots.txt
Trzecim sposobem jest stworzenie dynamicznego pliku robots za pomocą aplikacji bądź też strony, której plik robots.txt dotyczy. Można go wygenerować chociażby z poziomu systemu zarządzania treścią, na przykład w CMS typu WordPress.
Źródło: https://unsplash.com/photos/person-typing-on-gray-and-black-hp-laptop-EDZTb2SQ6j0
Jak sprawdzić, czy dana strona posiada robots txt?
Sprawdzenie, czy dana strona posiada taki plik, jest bardzo proste i można to zrobić na kilka sposobów. Poniżej przedstawiamy dwa najprostsze rozwiązania wraz z ich krótkim opisem.
Bezpośrednie sprawdzenie w przeglądarce
To wyjątkowo łatwy sposób. Wystarczy w pasku przeglądarki wpisać adres URL danej strony i dodać do niego fragment „/robots.txt”. Przykładowo, dla strony Semcore plik ten jest dostępny pod adresem:
https://www.semcore.pl/robots.txt
Jeśli po wpisaniu takiej komendy zobaczysz treść pliku (zwykle są to po prostu tekstowe instrukcje), oznacza to, że witryna posiada plik robots. Brak strony lub błąd 404 natomiast oznaczają, że takie pliki nie zostały utworzone.
Źródło: pixabay.com
Użycie Google Search Console
Istnieje także wiele darmowych narzędzi online, które pozwalają na sprawdzenie obecności i zawartości pliku robots.txt. Jednym z nich jest Google Search Console.
W tym przypadku wystarczy zalogować się do konta GSC, wybrać interesującą Cię stronę i przejść do sekcji „robots.txt”, aby narzędzie wyświetliło zawartość pliku oraz ewentualne błędy bądź ostrzeżenia dotyczące jego konfiguracji.
Czy roboty Google zawsze stosują się do zaleceń pliku robots.txt?
Niestety, trzeba pamiętać o tym, że blokowanie robotów Google nie zawsze jest skuteczne. Plik robots.txt nie może bowiem zmusić automatu do przestrzegania jego zasad. Tym sposobem zdarza się, że niektóre roboty ignorują zalecenia z pliku robots.txt i mimo wszystko uwzględniają daną witrynę w procesie indeksowania. Z zasady jednak wyszukiwarki przestrzegają ustalonych przez administratorów stron internetowych reguł.
Pamiętaj również o tym, że strona, która jest blokowana przez plik robots.txt, nadal może być indeksowana. Wystarczy bowiem, że będą prowadzić do niej linki z innej witryny internetowej. Jeżeli chcesz więc całkowicie wykluczyć konkretny adres URL z pokazywania się w wynikach wyszukiwania, stwórz metatag noindex albo całkowicie usuń stronę.
Źródło: https://unsplash.com/photos/macbook-pro-showing-programming-language-xrVDYZRGdw4
Wszystko o pliku robots.txt – podsumowanie
Plik robots.txt to niezwykle istotny element każdej strony internetowej, pełniący rolę swoistego drogowskazu dla robotów wyszukiwarek. To właśnie w nim zawarte są instrukcje dotyczące tego, które elementy witryny mogą być indeksowane, a które powinny pozostać ukryte przed wzrokiem robotów. Dzięki niemu możesz precyzyjnie zarządzać tym, jakie informacje o stronie trafią do wyszukiwarek, co ma bezpośredni wpływ na jej widoczność w wynikach wyszukiwania.
Plik robots.txt pozwala na przykład zablokować indeksowanie wersji roboczych stron, ukryć wewnętrzne narzędzia administracyjne lub zabezpieczyć wrażliwe dane. Możesz również określić częstotliwość, z jaką roboty mają odwiedzać Twoją stronę, co jest szczególnie ważne w przypadku witryn o dużej dynamice. Dzięki temu nie tylko wpływasz na szybkość indeksowania, ale także na obciążenie na swoim serwerze.
Tworzenie i zarządzanie plikiem robots.txt jest stosunkowo proste, jednak wymaga podstawowej wiedzy na temat jego składni. Możesz stworzyć go samodzielnie, korzystając z dedykowanych generatorów lub zlecić to zadanie specjalistom SEO. Niezależnie od wybranej metody, warto pamiętać, że plik robots.txt to narzędzie, które należy stosować z rozwagą. Zbyt restrykcyjne ustawienia mogą negatywnie wpłynąć na widoczność strony w wynikach wyszukiwania.