Uczenie multimodalne

Uczenie multimodalne – rodzaj uczenia głębokiego, który integruje i przetwarza wiele typów danych takich jak tekst, dźwięk, obrazy lub wideo. Taka integracja umożliwia bardziej całościowe zrozumienie złożonych danych, co poprawia wydajność modelu w zadaniach takich jak odpowiadanie na pytania dotyczące obrazów, wyszukiwanie międzymodalne^[1], generowanie obrazu na podstawie tekstu^[2] czy opisywanie obrazów^[3].

Duże modele multimodalne, takie jak Google Gemini i GPT-4o, zyskały na popularności od 2023 roku, oferując większą wszechstronność i szersze zrozumienie zjawisk zachodzących w świecie rzeczywistym^[4].

Przypisy

↑ MariyaM. Hendriksen MariyaM. i inni, Extending CLIP for Category-to-image Retrieval in E-commerce, arXiv, 4 stycznia 2022, DOI: 10.48550/arXiv.2112.11294 [dostęp 2025-04-10] .
↑ GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model [online], web.archive.org, 18 stycznia 2023 [dostęp 2025-04-10] [zarchiwizowane z adresu 2023-01-18] .
↑ RonR. Mokady RonR., AmirA. Hertz AmirA., Amit H.A.H. Bermano Amit H.A.H., ClipCap: CLIP Prefix for Image Captioning, arXiv, 18 listopada 2021, DOI: 10.48550/arXiv.2111.09734 [dostęp 2025-04-10] .
↑ Dr TehseenD.T. Zia Dr TehseenD.T., Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024 [online], Unite.AI, 8 stycznia 2024 [dostęp 2025-04-10] (ang.).

[1] MariyaM. Hendriksen MariyaM. i inni, Extending CLIP for Category-to-image Retrieval in E-commerce, arXiv, 4 stycznia 2022, DOI: 10.48550/arXiv.2112.11294 [dostęp 2025-04-10] .

[2] GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model [online], web.archive.org, 18 stycznia 2023 [dostęp 2025-04-10] [zarchiwizowane z adresu 2023-01-18] .

[3] RonR. Mokady RonR., AmirA. Hertz AmirA., Amit H.A.H. Bermano Amit H.A.H., ClipCap: CLIP Prefix for Image Captioning, arXiv, 18 listopada 2021, DOI: 10.48550/arXiv.2111.09734 [dostęp 2025-04-10] .

[4] Dr TehseenD.T. Zia Dr TehseenD.T., Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024 [online], Unite.AI, 8 stycznia 2024 [dostęp 2025-04-10] (ang.).

[1]

[2]

[3]

[4]

Paradygmaty	Uczenie nadzorowane Uczenie nienadzorowane Uczenie przez wzmacnianie Uczenie samonadzorowane
Problemy	Inferencja gramatyki Inżynieria cech Klasteryzacja Klasyfikacja Regresja Redukcja wymiaru Uczenie multimodalne Uczenie (się) cech Wykrywanie anomalii
Uczenie nadzorowane (Klasyfikacja, Regresja)	Drzewa klasyfikacyjne Uczenie zespołowe Agregacja Las losowy K najbliższych sąsiadów Regresja liniowa Naiwny klasyfikator bayesowski Sieć neuronowa Regresja logistyczna Perceptron Maszyna wektorów nośnych
Klasteryzacja	Grupowanie hierarchiczne Algorytm centroidów DBSCAN Inferencja gramatyki
Redukcja wymiaru	Analiza czynnikowa Korelacja kanoniczna Liniowa analiza dyskryminacyjna Analiza głównych składowych
Sieć neuronowa	Autoenkoder Uczenie głębokie Jednokierunkowa sieć neuronowa Model dyfuzyjny Rekurencyjna sieć neuronowa LSTM Sieć generatywna GAN Sieć Kohonena Konwolucyjna sieć neuronowa Transformator