Term Frequency-Inverse Document Frequency (TF-IDF) – co to jest i do czego służy?
Na skróty
Nie musimy wyjaśniać, jak ważne dla SEO są słowa kluczowe i ich optymalne rozmieszczenie w tekstach. TF-IDF to w tym kontekście niezwykle przydatne narzędzie, o którym więcej piszemy poniżej.
TF-IDF – co to za narzędzie?
Term frequency-inverse document frequency (TF-IDF) to narzędzie statystyczne pozwalające ocenić, jak istotne dla całego tekstu jest wybrane słowo lub fraza. Stosuje się je podczas wyszukiwania informacji w dużych zbiorach danych, stanowi też przydatny element w procesie przetwarzania języka naturalnego przez modele AI.
Dla nas najważniejsze jest jednak zastosowanie tego narzędzia w SEO. A tutaj TF-IDF jest bardzo dobrym wskaźnikiem nasycenia tekstu wybraną frazą — powiedzmy, słowem kluczowym, pod które pozycjonujemy stronę — w odniesieniu do większego „korpusu” treści. Wyjaśnimy to bliżej w dalszej części tekstu; chodzi jednak o to, że wynik TF-IDF może pokazać wagę (nasycenie) frazy w kontekście innych stron z czołówki wyników wyszukiwania czy, na przykład, literatury naukowej z danej dziedziny.
Z bardzo podobnych metod korzysta algorytm Google przy indeksowaniu semantycznym treści — czyli do określania zakresu tematycznego tekstów na podstawie najczęściej używanych w nich słów i wyrażeń. Oczywiście, z wyłączeniem spójników i innych stop words.
Jak działa TF-IDF – trochę teorii
Na wartość TF-IDF składają się dwa czynniki: Term Frequency (TF) oraz Inverse Document Frequency (IDF). Aby zrozumieć, jak działa to narzędzie, musimy przybliżyć je oba.
Term Frequency
Wskaźnik TF określa częstotliwość występowania danej frazy w tekście — jaki odsetek wszystkich słów stanowi analizowany termin.
Obliczamy go, dzieląc liczbę wystąpień słowa/frazy w tekście przez całkowitą liczbę słów. Wynik może mieć wartość od 0 do 1, gdzie 1 oznaczałoby dokument w 100% składający się z naszej frazy.
Inverse Document Frequency
To już nieco bardziej skomplikowany wskaźnik, określający unikalność danej frazy w wybranym przez nas zbiorze tekstów. W SEO najczęściej bierze się pod uwagę, rzecz jasna, teksty z pierwszej strony wyników wyszukiwania Google — czasem nawet zawężając zakres do TOP 5 lub TOP 3.
Wartość IDF to logarytm dziesiętny z całkowitej liczby tekstów w wybranym zbiorze podzielonej na liczbę tekstów zawierających analizowaną frazę (do tej ostatniej dodaje się z zasady 1, aby uniknąć dzielenia przez 0).
Im wyższa wartość IDF, tym bardziej unikalna jest dana fraza — rzadziej występuje w wybranym zbiorze tekstów.
Wskaźnik TF-IDF
Właściwa wartość wskaźnika TF-IDF (czasem można spotkać się z nazwą TF-IDF Score) to po prostu wynik mnożenia wartości TF oraz IDF.
Łatwo więc wywnioskować, że wysoki TF-IDF oznacza duże nasycenie naszego tekstu daną frazą i/lub stosunkowo rzadkie występowanie frazy w pozostałych analizowanych dokumentach.
Dlaczego TF-IDF jest tak przydatnym wskaźnikiem?
Pytanie, do czego można wykorzystać metodę TF-IDF w praktyce — czyli przy optymalizacji treści pod kątem wymagań Google. Okazuje się, że znajomość „wagi”, poziomu nasycenia frazy w tekście naszym i konkurencji jest bardzo przydatna. TF-IDF może się sprawdzić:
- przy optymalizacji nasycenia słów kluczowych w porównaniu z najlepiej rankującymi stronami;
- przy weryfikacji tzw. wyrażeń powiązanych — fraz wspierających słowa kluczowe i stanowiące potwierdzenie dla wyszukiwarek, że dany tekst rzeczywiście jest na konkretny temat (a fraza główna nie znalazła się tam „z przypadku”!);
- jako narzędzie do sprawdzania, czy teksty nie są przesycone frazami kluczowymi (co nie pomaga w pozycjonowaniu; wręcz przeciwnie, może zaszkodzić pozycji strony);
- jako sposób na identyfikację najbardziej obiecujących — bo rzadko wykorzystywanych przez konkurencję — fraz tzw. długiego ogona.
I jasne, liczenie wszystkich trzech wskaźników „na piechotę” może być naprawdę czasochłonne; na szczęście każde większe narzędzie pozycjonerskie (np. Semrush) powinno mieć TF-IDF wśród narzędzi do analizy słów kluczowych.