Perpleksja

Perpleksja[1][2], nieokreśloność[3] – miara niepewności wartości próbki z dyskretnego rozkładu prawdopodobieństwa. Im większa perpleksja, tym mniejsze prawdopodobieństwo, że obserwator odgadnie wartość, jaka zostanie wyciągnięta z rozkładu. Pojęcie perpleksji zostało pierwotnie wprowadzone w 1977 roku w teorii informacji w kontekście rozpoznawania mowy[4].

Perpleksja tokena

W przetwarzaniu języka naturalnego korpus to ustrukturyzowany zbiór tekstów lub dokumentów, a model języka to rozkład prawdopodobieństwa obejmujący całe teksty lub dokumenty. Dlatego w przetwarzaniu języka naturalnego powszechniej stosowaną miarą jest perpleksja PP na token (słowo lub podsłowo), definiowana jako średnia geometryczna odwrotności prawdopodobieństwa każdego tokena w testowym korpusie q[5]: Gdzie dokumentami w korpusie i jest liczbą tokenów w korpusie.

Nieformalnie, PP oznacza ilość jest możliwości szacowania następnego słowa w testowym korpusie[4].

Użycie w dużych modelach językowych

Perpleksję zastosowano w celu porównania różnych modeli w tym samym zestawie danych i w celu optymalizacji hiperparametrów, chociaż stwierdzono, że jest ona wrażliwa na takie czynniki, jak cechy językowe i długość zdania[6].

Pomimo kluczowej roli, jaką odgrywa perpleksja w rozwoju modelu języka, wykazała ona swoje ograniczenia, zwłaszcza jako niewystarczający wyznacznik wydajności rozpoznawania mowy, nadmiernego dopasowania i uogólnienia[7][8].

Zobacz też

Przypisy

  1. Naukowcy z magicznym narzędziem do zrozumienia AI? Znaleźli je w.. Hogwarcie [online], forsal.pl, 26 grudnia 2023 [dostęp 2025-05-12] (pol.).
  2. Informatyka na dziś - Terminologia pojęć LLM [online], www.drmalinowski.edu.pl [dostęp 2025-05-12].
  3. Justyna Kusak, Przewidywanie sekwencji tekstu na podstawie wcześniejszej części przy użyciu algorytmów uczenia maszynowego [online], 2020.
  4. 1 2 F. Jelinek i inni, Perplexity—a measure of the difficulty of speech recognition tasks, „The Journal of the Acoustical Society of America”, 62 (S1), 2005, S63, DOI: 10.1121/1.2016299, ISSN 0001-4966 [dostęp 2025-05-12].
  5. Hayato Kobayashi, Perplexity on Reduced Corpora, Kristina Toutanova, Hua Wu (red.), Baltimore, Maryland: Association for Computational Linguistics, czerwiec 2014, s. 797–806, DOI: 10.3115/v1/P14-1075 [dostęp 2025-05-12].
  6. Alessio Miaschi i inni, What Makes My Model Perplexed? A Linguistic Investigation on Neural Language Models Perplexity, Eneko Agirre, Marianna Apidianaki, Ivan Vulić (red.), Online: Association for Computational Linguistics, czerwiec 2021, s. 40–47, DOI: 10.18653/v1/2021.deelio-1.5 [dostęp 2025-05-12].
  7. Dietrich Klakow, Jochen Peters, Testing the correlation of word error rate and perplexity, „Speech Communication”, 38 (1), 2002, s. 19–28, DOI: 10.1016/S0167-6393(01)00041-3, ISSN 0167-6393 [dostęp 2025-05-12].
  8. Stanley F. Chen, Douglas Beeferman, Roni Rosenfeld, Evaluation Metrics For Language Models, 2008, DOI: 10.1184/R1/6605324.v1 [dostęp 2025-05-12] (ang.).