Robots.txt czy noindex – jak blokować indeksowanie strony?
3 min
3 min
Na skróty
Nie chcesz, aby dana podstrona Twojego serwisu został zindeksowana przez Google? Masz do wyboru kilka sposobów, aby zrealizować ten cel. Możesz umieścić odpowiedni kod w robots.txt lub skorzystać z tagu <noindex>. Czy jednak na pewno obie metody są skuteczne? Z której skorzystać, aby na pewno dany content nie trafił do indeksu Google?
Robots.txt to plik tekstowy, który zawiera wytyczne dla robotów crawlujących. Poprzez umieszczenie w nim odpowiedniego kodu możesz zablokować dostęp do różnych części serwisu botom. Czy robots.txt skutecznie zablokuje indeksowanie? Nie ma co do tego pewności. Google nie rekomenduje używania robots.txt, jeśli chcesz, aby dany URL nie trafił do wyników wyszukiwania. Dlaczego?
Otóż, jeśli do danej podstrony prowadzą linki zewnętrzne, to Google może zindeksować ją bez odwiedzania witryny. Natomiast warto korzystać z robots.txt, jeśli chcesz blokować stronę przed różnymi robotami crawlującymi. Obecnie bardzo popularne jest to w przypadku witryn, które chcą zapobiegać wykorzystywaniu ich contentu przez narzędzia AI, takie jakie Chat GPT. Jeśli jednak Twoim celem jest blokada indeksacji danego adresu URL, skorzystaj z innych metod, np. tagu noindex.
Źródło: https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=pl
Skuteczną metodą jest skorzystanie z tagu index. Jeśli tylko odpowiednio umieścisz go w kodzie, dany adres URL nie znajdzie się w wynikach wyszukiwania. Pamiętaj jednak, że reguła noindex będzie działać poprawnie, jeśli nie zablokujesz robotowi dostępu do strony przez plik robots.txt. W przeciwnym wypadku bot w ogóle nie sprawdzi, czy ta reguła występuje na stronie i dany materiał może pozostawać zaindeksowany. Dlatego upewnij się, czy robots.txt nie blokuje dostępu botom poszczególnych wyszukiwarek.
Źródło: https://developers.google.com/search/docs/crawling-indexing/block-indexing?hl=pl
Wystarczy, że umieścisz odpowiedni kod. Istnieją dwie możliwości zastosowania dyrektywy noindex. Możesz to zrobić w postaci tagu <meta> oraz jako nagłówek odpowiedzi HTTP.
Blokada indeksowania w postaci tagu <meta>
Wystarczy, że umieścisz w części <head> strony następujący kod:
<meta name=”robots” content=”noindex”>
Jego dodanie jest jednoznaczne z blokowaniem indeksowania we wszystkich wyszukiwarkach. W przypadku gdy chodzi wyłącznie o Google, użyj następującego:
<meta name=”googlebot” content=”noindex”>
Nie zawsze masz możliwość edycji kodu strony. Jeśli korzystasz z niektórych kreatorów, bardzo prawdopodobne, że bez kontaktu z administratorami usługi nie zablokujesz indeksacji. Jednak przeważnie jest już dostępna.
Innym sposobem jest zwrócenie nagłówka z odpowiedzią HTTP X-Robots-Tag z wartością noindex lub none. Na serwerach Apache dyrektywy dodaje się w pliku .htaccess, a na serwerach Nginx – w pliku .conf. Oto przykładowy kod, który możesz zastosować:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
Możesz również określić wytyczne dla robotów różnych wyszukiwarek, np.:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: googlebot: noindex
X-Robots-Tag: innybot: noindex, nofollow
(…)
Jeśli nie podasz nazwy bota, reguła będzie obowiązywać roboty wszystkich wyszukiwarek.
Skorzystaj z Google Search Console, czyli https://search.google.com/. Zweryfikuj witrynę i poczekaj, aż pojawią się dane dotyczące indeksowania. W tym celu kliknij opcję Strony, a następne wybierz Strona wykluczona za pomocą tagu „noindex”.
Warto regularnie zaglądać do tego raportu, gdyż możesz się dowiedzieć o podstronach przypadkiem wykluczonych z indeksacji. Jeśli tak jest, inwestycja w pozycjonowanie nie będzie przynosić efektów, gdyż materiały w ogóle nie trafią do Google. To bardzo częsty błąd, ale na szczęście łatwy do wyeliminowania – wystarczy usunąć odpowiedzialny za niego kod.
Przedsiębiorca związany z branżą SEO od 2004 roku. Tworzy content o tematyce marketingu online, finansów, nieruchomości i podróży. Rozwija własne serwisy tematyczne.