Uczenie reprezentacji

Schemat paradygmatu uczenia się cech, który można stosować zarówno do surowych danych, takich jak obrazy lub tekst, jak i do początkowego zestawu cech. Uczenie reprezentacji ma na celu szybszy trening lub lepszą wydajność w specyficznych zadaniach w porównaniu z bezpośrednim wprowadzeniem danych (por. uczenie transferowe).

W kontekście uczenia maszynowego uczenie (się) cech lub uczenie reprezentacji^[1]^[2] (ang. feature learning lub representation learning) to zbiór technik, które umożliwiają systemowi automatyczne odkrywanie, na podstawie surowych danych, wewnętrznych reprezentacji potrzebnych do wykrywania obiektów lub klasyfikacji. Techniki maszynowego uczenia się cech zastępują inżynierię cech (definiowanie przydatnych cech przez człowieka) i pozwalają algorytmom zarówno wyekstrahować cechy, jak i wykorzystać je do wykonania określonego zadania.

Potrzeba uczenia reprezentacji wypływa z faktu, że zadania uczenia maszynowego, takie jak klasyfikacja, wymagają danych wejściowych, które są odpowiednio przystosowane do matematycznego i obliczeniowego przetwarzania. Tymczasem dane pochodzące ze świata rzeczywistego, takie jak obrazy, nagrania wideo czy dane z czujników, rzadko pozwalają na jednoznaczne zdefiniowanie istotnych cech za pomocą z góry zaprojektowanych algorytmów. Alternatywą jest odkrywanie takich cech (reprezentacji) poprzez analizę danych – bez konieczności polegania na ręcznej ekstrakcji cech.

Uczenie się cech może być nadzorowane, nienadzorowane lub samonadzorowane:

W nadzorowanym uczeniu się cech, cechy są pozyskiwane przy użyciu danych wejściowych z etykietami. Dane zawierają pary wejście–etykieta; model otrzymuje dane wejściowe i musi wygenerować odpowiadającą im etykietę jako wynik (tzw. ground truth)^[3]. Można to wykorzystać do generowania reprezentacji cech za pomocą modelu, co skutkuje wysoką dokładnością przewidywania etykiet. Przykładami są nadzorowane uczenie słownikowe, sieci neuronowe, perceptrony wielowarstwowe.
W nienadzorowanym uczeniu się cech, ekstrakcja cech powstaje przy użyciu nieoznaczonych danych wejściowych poprzez analizę relacji między punktami w zbiorze danych^[4]. Przykłady obejmują uczenie słownikowe, analizę niezależnych składowych, rozkład macierzy i różne formy klasteryzacji^[5].
W przypadku uczenia samonadzorowanego reprezentacje są odkrywane przy użyciu nieoznaczonych danych, tak jak w przypadku uczenia się bez nadzoru, jednak pary wejście-etykieta są konstruowane z każdego punktu danych, co umożliwia poznawanie struktury danych za pomocą nadzorowanych metod, takich jak metoda gradientu prostego^[6]. Do klasycznych przykładów zaliczają się osadzanie słów i autoenkodery^[7]. Od tego czasu uczenie samonadzorowane zostało zastosowane w wielu obszarach z wykorzystaniem głębokich architektur sieci neuronowych, takich jak konwolucyjne sieci neuronowe i transformatory^[6].

Przypisy

↑ AurélienA. Géron AurélienA., Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, KrzysztofK. Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020, s. 551, ISBN 978-83-283-6002-0 [dostęp 2025-04-22] .
↑ Y. Bengio, A. Courville. Representation Learning: A Review and New Perspectives. „IEEE Transactions on Pattern Analysis and Machine Intelligence”. 35 (8), s. 1798–1828, 2013. DOI: 10.1109/tpami.2013.50. arXiv:1206.5538. PMID: 23787338.
↑ Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 978-0-13-604259-4.
↑ Hinton, Geoffrey; Sejnowski, Terrence (1999). Unsupervised Learning: Foundations of Neural Computation. MIT Press. ISBN 978-0-262-58168-4.
↑ Daniel Jurafsky, James H. Martin: Speech and Language Processing. Pearson Education International, 2009, s. 145–146.
1 2 Linus Ericsson. Self-Supervised Representation Learning: Introduction, advances, and challenges. „IEEE Signal Processing Magazine”. 39 (3), s. 42–62, May 2022. DOI: 10.1109/MSP.2021.3134634. arXiv:2110.09327. ISSN 1558-0792. Bibcode: 2022ISPM...39c..42E.
↑ Tomas Mikolov. Distributed Representations of Words and Phrases and their Compositionality. „Advances in Neural Information Processing Systems”. 26, 2013. Curran Associates, Inc.. arXiv:1310.4546.

[1] AurélienA. Géron AurélienA., Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, KrzysztofK. Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020, s. 551, ISBN 978-83-283-6002-0 [dostęp 2025-04-22] .

[pami-2] Y. Bengio, A. Courville. Representation Learning: A Review and New Perspectives. „IEEE Transactions on Pattern Analysis and Machine Intelligence”. 35 (8), s. 1798–1828, 2013. DOI: 10.1109/tpami.2013.50. arXiv:1206.5538. PMID: 23787338.

[3] Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 978-0-13-604259-4.

[4] Hinton, Geoffrey; Sejnowski, Terrence (1999). Unsupervised Learning: Foundations of Neural Computation. MIT Press. ISBN 978-0-262-58168-4.

[jurafsky-5] Daniel Jurafsky, James H. Martin: Speech and Language Processing. Pearson Education International, 2009, s. 145–146.

[:0-6] 1 2 Linus Ericsson. Self-Supervised Representation Learning: Introduction, advances, and challenges. „IEEE Signal Processing Magazine”. 39 (3), s. 42–62, May 2022. DOI: 10.1109/MSP.2021.3134634. arXiv:2110.09327. ISSN 1558-0792. Bibcode: 2022ISPM...39c..42E.

[:3-7] Tomas Mikolov. Distributed Representations of Words and Phrases and their Compositionality. „Advances in Neural Information Processing Systems”. 26, 2013. Curran Associates, Inc.. arXiv:1310.4546.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Paradygmaty	Uczenie nadzorowane Uczenie nienadzorowane Uczenie przez wzmacnianie Uczenie samonadzorowane
Problemy	Inferencja gramatyki Inżynieria cech Klasteryzacja Klasyfikacja Regresja Redukcja wymiaru Uczenie multimodalne Uczenie (się) cech Wykrywanie anomalii
Uczenie nadzorowane (Klasyfikacja, Regresja)	Drzewa klasyfikacyjne Uczenie zespołowe Agregacja Las losowy K najbliższych sąsiadów Regresja liniowa Naiwny klasyfikator bayesowski Sieć neuronowa Regresja logistyczna Perceptron Maszyna wektorów nośnych
Klasteryzacja	Grupowanie hierarchiczne Algorytm centroidów DBSCAN Inferencja gramatyki
Redukcja wymiaru	Analiza czynnikowa Korelacja kanoniczna Liniowa analiza dyskryminacyjna Analiza głównych składowych
Sieć neuronowa	Autoenkoder Uczenie głębokie Jednokierunkowa sieć neuronowa Model dyfuzyjny Rekurencyjna sieć neuronowa LSTM Sieć generatywna GAN Sieć Kohonena Konwolucyjna sieć neuronowa Transformator