Nie chcesz, aby dana podstrona Twojego serwisu został zindeksowana przez Google? Masz do wyboru kilka sposobów, aby zrealizować ten cel. Możesz umieścić odpowiedni kod w robots.txt lub skorzystać z tagu <noindex>. Czy jednak na pewno obie metody są skuteczne? Z której skorzystać, aby na pewno dany content nie trafił do indeksu Google?
Blokada w robots.txt – czy wyklucza indeksację?
Robots.txt to plik tekstowy, który zawiera wytyczne dla robotów crawlujących. Poprzez umieszczenie w nim odpowiedniego kodu możesz zablokować indeksowanie i dostęp do różnych części serwisu botom. Czy robots.txt skutecznie zablokuje indeksowanie? Nie ma co do tego pewności. Google nie rekomenduje używania robots.txt, jeśli chcesz, aby dany URL nie trafił do wyników wyszukiwania Google. Dlaczego?
Otóż, jeśli do konkretnej podstrony prowadzą linki zewnętrzne, to Google może zindeksować ją bez odwiedzania witryny. Natomiast warto korzystać z robots.txt, jeśli chcesz blokować stronę przed robotami Google. Obecnie bardzo popularne jest to w przypadku witryn, które chcą zapobiegać wykorzystywaniu ich contentu przez narzędzia AI, takie jakie Chat GPT. Jeśli jednak Twoim celem jest blokada indeksacji danego adresu URL, skorzystaj z innych metod, np. tagu noindex.
Tag noindex – czy blokuje indeksację witryny?
Skuteczną metodą jest skorzystanie z tagu index. Jeśli tylko odpowiednio umieścisz go w kodzie, dany adres URL nie znajdzie się w wynikach wyszukiwania. Pamiętaj jednak, że reguła noindex będzie działać poprawnie, jeśli nie zablokujesz robotowi dostępu do strony przez plik robots.txt. W przeciwnym wypadku bot w ogóle nie sprawdzi, czy ta reguła występuje na stronie i dany materiał może pozostawać zaindeksowany. Dlatego upewnij się, czy plik robots.txt nie blokuje dostępu botom do wyszukiwarki Google.
Jak skorzystać z reguły noindex?
Wystarczy, że umieścisz odpowiedni kod. Istnieją dwie możliwości zastosowania dyrektywy noindex. Możesz to zrobić w postaci meta tagu oraz jako nagłówek odpowiedzi HTTP.
Blokada indeksowania w postaci meta name robots content
Wystarczy, że umieścisz w sekcji head strony następujący kod:
<meta name=”robots” content=”noindex”>
Jego dodanie jest jednoznaczne z blokowaniem indeksowania we wszystkich wyszukiwarkach. W przypadku gdy chodzi wyłącznie o Google, użyj następującego:
<meta name=”googlebot” content=”noindex”>
Nie zawsze masz możliwość edycji kodu strony. Jeśli korzystasz z niektórych kreatorów, bardzo prawdopodobne, że bez kontaktu z administratorami usługi nie zablokujesz indeksacji. Jednak przeważnie jest już dostępna.
Blokada indeksowania poprzez nagłówek odpowiedzi HTTP
Innym sposobem jest zwrócenie nagłówka z odpowiedzią HTTP X-Robots-Tag z wartością noindex lub none. Na serwerach Apache dyrektywy dodaje się w pliku .htaccess, a na serwerach Nginx – w pliku .conf. Oto przykładowy kod, który możesz zastosować:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
Możesz również określić wytyczne dla robotów różnych wyszukiwarek, np.:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: googlebot: noindex
X-Robots-Tag: innybot: noindex, nofollow
(…)
Jeśli nie podasz nazwy bota, reguła będzie obowiązywać roboty indeksujące wszystkich wyszukiwarek.
Jak sprawdzić, które strony są blokowane przed indeksacją?
Skorzystaj z Google Search Console, czyli https://search.google.com/. Zweryfikuj witrynę i poczekaj, aż pojawią się dane dotyczące indeksowania. W tym celu kliknij opcję Strony, a następne wybierz Strona wykluczona za pomocą tagu „noindex”.
Warto regularnie zaglądać do tego raportu, gdyż możesz się dowiedzieć o podstronach przypadkiem wykluczonych z indeksacji. Jeśli tak jest, inwestycja w pozycjonowanie nie będzie przynosić efektów, gdyż materiały w ogóle nie trafią do Google. To bardzo częsty błąd, ale na szczęście łatwy do wyeliminowania – wystarczy usunąć odpowiedzialny za niego kod.
FAQ – pytania orRobots.txt i noindex
Czy można łączyć robots.txt i noindex?
Nie zaleca się łączenia obu metod na tej samej stronie. Jeśli zablokujesz stronę w robots.txt, robot nie będzie mógł jej odwiedzić i nie zobaczy tagu noindex, przez co strona może mimo wszystko pojawić się w wynikach wyszukiwania (np. jako „Indexed though blocked by robots.txt”). Najpierw użyj noindex, poczekaj aż strona zniknie z indeksu, a dopiero potem – jeśli to konieczne – zablokuj ją w robots.txt.
Noindex czy robots.txt?
- Robots.txt: gdy chcesz zablokować crawlowanie całych katalogów, plików lub sekcji serwisu, np. plików graficznych czy folderów technicznych, które nie muszą być widoczne w wyszukiwarce. Przydaje się także do zarządzania budżetem crawlowania.
- Noindex: gdy zależy Ci, aby konkretna strona lub podstrona nie pojawiała się w wynikach wyszukiwania (np. strony w trakcie budowy, wersje robocze, duplikaty treści). Noindex działa na poziomie pojedynczych stron.
Jak blokować indeksowanie plików graficznych?
Aby zablokować indeksowanie plików graficznych, najlepiej użyć robots.txt z dyrektywą Disallow dla odpowiednich folderów (np. /images/). Warto pamiętać, że pliki graficzne mogą być indeksowane, jeśli do nich prowadzą linki z innych stron, nawet jeśli są zablokowane w robots.txt.Nie można użyć tagu noindex bezpośrednio na plikach graficznych, bo to nie są strony HTML.