Co oznacza disallow w robots.txt?
3 min
3 min
Na skróty
Robots.txt to plik tekstowy, który służy do zarządzania ruchem robotów indeksujących. Za jego pomocą określisz, które adresy URL na stronie mają być indeksowane oraz zablokujesz dostęp do serwisu określonym robotom. Potrzebujesz jednak odpowiednich dyrektyw. W robots.txt możesz trafić m.in. na komendę disallow. Co oznacza?
Plik ten zawiera wytyczne dla robotów crawlujących i trafia do katalogu głównego strony. Powinien być tylko jeden – dostępny pod adresem: https://twojadomena.pl/robots.txt, gdzie pod kolorem czerwonym umieść adres Twojej witryny. Aby sprawdzić zawartość tego pliku, nie potrzebujesz żadnego narzędzia. Po prostu otwórz robots.txt w przeglądarce. Przykładowo, plik portalu onet.pl zawiera następującą treść:
Natomiast warto skorzystać z narzędzia, jeśli nie rozumiesz treści, które znajdują się w pliku, a chcesz sprawdzić, czy dany robot nie jest w nim blokowany. Możesz do tego wykorzystać, np. technicalseo.com/tools/robots-txt/. Jak widzisz poniżej – weryfikacja zakończyła się pozytywnie.
Blokada robota Google może powodować, że inwestycje w pozycjonowanie nie dają efektów, gdyż wyszukiwarka i tak nie indeksuje zasobów. Natomiast ogólnie robots.txt nie powinien być wykorzystywany, jeśli zależy Ci na blokadzie indeksacji. Google może dodać Twoją stronę do indeksu po znalezieniu prowadzących do niej odnośników i zrobić to nawet bez odwiedzania tej witryny. Dlatego, jeśli chcesz ukryć przed korzystającymi z Google dany URL, skorzystaj z dyrektywy noindex w sekcji <head> strony.
Ta dyrektywa informuje roboty wyszukiwarek, które części Twojej witryny nie powinny być indeksowane. W przypadku pokazanego kodu pliku robots.txt serwisu onet.pl znajduje się w nim:
Disallow:
To oznacza, że żadne zasoby nie zostały wykluczone z indeksowania. Odwrotny efekt powinna dać poniższa dyrektywa:
Disallow: /
Taka komenda oznacza, że cała witryna ma nie być indeksowana.
Jeśli chcesz wykluczyć z indeksowania konkretny folder, wystarczy podać jego ścieżkę w następującej formie:
Disallow: /prywatne/
Wykluczenie nie musi dotyczyć tylko jednego folderu, możesz wymienić ich wiele:
Disallow: /foto/
Disallow: /zdjecia/
Disallow: /administracja/
Może to być również ścieżka do konkretnego pliku np.
Disallow: /nowe/zdjecia.html
Możesz blokować indeksację wszystkim robotom albo tylko konkretnym. Poniższy kod blokuje bota Google:
User-agent: Googlebot
Disallow: /wazny-plik.html
Blokada może też obejmować wszystkie pliki z określonym rozszerzeniem tak jak w poniższym przypadku dla końcówki .jpg.
User-agent: Googlebot
Disallow: /*.jpg$
Za pomocą tej dyrektywy określasz, które zasoby w witrynie mogą być indeksowane. Jeśli kod w pliku robots.txt będzie taki jak poniżej, indeksacji będą podlegać wszystkie treści w witrynie.
User-agent: *
Allow:
Przykładowa treść pliku z uwzględnieniem obu wspomnianych dyrektyw i innych informacji może być następująca:
User-agent: Googlebot
Disallow: /prywatny/
User-agent: *
Allow: /
Sitemap: https://www.twoja-strona.com/mapa-strony.xml
Oznacza to że:
Jak wspomniałem, disallow w robots.txt nie jest dobrym rozwiązaniem, jeśli chcesz zablokować indeksowanie w Google. Aby osiągnąć oczekiwany efekt, w takim przypadku w kodzie źródłowym w sekcji <head> umieść:
<meta name=”robots” content=”noindex”>
Część robotów ignoruje zawartość robots.txt – szczególnie dotyczy to botów spamujących.
Zanim dodasz plik robots.txt na serwer, skorzystaj z testerów, aby sprawdzić, czy nie ma w nim błędu, przez który może dojść do problemów z indeksowaniem. Jeśli chodzi o inne podstawowe zasady, to najlepiej używaj tylko małych liter.
Przedsiębiorca związany z branżą SEO od 2004 roku. Tworzy content o tematyce marketingu online, finansów, nieruchomości i podróży. Rozwija własne serwisy tematyczne.