Term frequency
TF (ang. term frequency) – częstość słów (ważenie częstością słów) — podstawowe pojęcie w analizie tekstu[1][2], które określa ilościowo, ile razy określony termin pojawia się w dokumencie[1][2]; funkcja oceny relatywności dokumentu na podstawie wagi ilościowej (częstości wystąpień) słów w obrębie dokumentu[2]; jest wykorzystywana przez wyszukiwarki internetowe[3]. Ważenie termów jest procesem obliczania wag, czyli stopnia przynależności termu do dokumentu z uwzględnieniem częstotliwości występowania termu w tekście[4].
Powszechnie uznaje się, że TF przywiązuje zbyt dużą wagę do powtarzających się wystąpień terminu[1], dlatego opracowano różne techniki rozwinięcia metody TF w różnych dziedzinach takie jak: TF-IDFC-RF, TF-G (wykorzystujące technikę Gaussa do klasyfikacji tekstu), TF-IDF i TF-ICF[1][5].
Przypisy
- 1 2 3 4 Flavio Carvalho, Gustavo Paiva Guedes, TF-IDFC-RF: A Novel Supervised Term Weighting Scheme, 12 marca 2020, DOI: 10.48550/ARXIV.2003.07193 [dostęp 2024-07-25] (ang.).
- 1 2 3 R.N. Rathi, A. Mustafi, The importance of Term Weighting in semantic understanding of text: A review of techniques, „Multimedia Tools and Applications”, 82 (7), 2023, s. 9761–9783, DOI: 10.1007/s11042-022-12538-3, ISSN 1380-7501, PMID: 35437420, PMCID: PMC9007265 [dostęp 2024-09-10] (ang.).
- ↑ Carolyn Watters, Ghada Amoudi, GeoSearcher: Location‐based ranking of search engine results, „Journal of the American Society for Information Science and Technology”, 54 (2), 2003, s. 140–151, DOI: 10.1002/asi.10191, ISSN 1532-2882 [dostęp 2024-07-25] (ang.).
- ↑ Junzheng Wu, Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).
- ↑ Vuttichai Vichianchai, Sumonta Kasemvilas, A New Term Frequency with Gaussian Technique for Text Classification and Sentiment Analysis, „Journal of ICT Research and Applications”, 15 (2), 2021, s. 152–168, DOI: 10.5614/itbj.ict.res.appl.2021.15.2.4, ISSN 2338-5499 [dostęp 2024-07-25] (ang.).