Co to znaczy tf?
Tf: skrót od term frequency
TF, czyli Term Frequency, to pojęcie z obszaru przetwarzania języka naturalnego (NLP), które odgrywa kluczową rolę w analizie tekstu i systemach wydobywania informacji.
Jest to wskaźnik mierzący częstość występowania danego słowa w dokumencie lub zbiorze dokumentów w stosunku do ogólnej liczby słów. W ten sposób pomaga określić istotność danego słowa w kontekście analizowanego tekstu.
Jak działa term frequency?
TF jest obliczane na podstawie prostej formuły:
??
??
(
??
)
=
??
??
??
??
´
??
´
??
??
??
??
ą
??
??
??
??
´
??
ł
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
´
??
´
??
??
??
??
??
??
??
??
??
h
??
ł
??
´
??
??
??
??
??
??
??
??
??
??
??
??
TF(t)=
ilo
s
´
c
´
wszystkich sł
o
´
w w dokumencie
ilo
s
´
c
´
wystąpie
n
´
słowa t w dokumencie
?
Gdzie:
??
t oznacza konkretne słowo,
??
??
??
??
´
??
´
??
??
??
??
ą
??
??
??
??
´
??
ł
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
ilo
s
´
c
´
wystąpie
n
´
słowa t w dokumencie to liczba razy, jakie dane słowo pojawia się w dokumencie,
??
??
??
??
´
??
´
??
??
??
??
??
??
??
??
??
h
??
ł
??
´
??
??
??
??
??
??
??
??
??
??
??
??
ilo
s
´
c
´
wszystkich sł
o
´
w w dokumencie to ogólna liczba słów w dokumencie.
Na przykład, jeśli mamy dokument składający się z 100 słów, a słowo “TF” występuje w nim 10 razy, to jego Term Frequency wynosi
10
100
=
0.1
100
10
?
=0.1.
Znaczenie tf w analizie tekstu
TF jest istotne w wielu zastosowaniach analizy tekstu, w tym w wyszukiwarkach internetowych, systemach rekomendacyjnych, kategoryzacji dokumentów czy wykrywaniu spamu. Dzięki TF możliwe jest określenie, które słowa są istotne w kontekście danego dokumentu lub zbioru dokumentów.
Tf w połączeniu z idf
Chociaż TF pozwala na określenie częstości występowania słowa w danym dokumencie, nie mówi nam o jego istotności w kontekście całego zbioru dokumentów. Dlatego często stosuje się połączenie TF z IDF (Inverse Document Frequency), co prowadzi do powstania miary TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF uwzględnia zarówno częstość występowania słowa w dokumencie, jak i rzadkość tego słowa w całym zbiorze dokumentów, co pozwala na jeszcze lepsze określenie istotności danego słowa w analizowanym tekście.
TF, czyli Term Frequency, jest kluczowym wskaźnikiem w analizie tekstu, pozwalającym określić częstość występowania danego słowa w dokumencie. Jest używane w wielu dziedzinach, od wyszukiwarek internetowych po systemy rekomendacyjne. Jednakże, aby uzyskać pełniejszy obraz istotności słowa, często łączy się je z IDF, tworząc miarę TF-IDF. Dzięki temu możliwe jest bardziej precyzyjne określenie znaczenia danego słowa w kontekście analizowanego tekstu.