Uczenie multimodalne
Uczenie multimodalne – rodzaj uczenia głębokiego, który integruje i przetwarza wiele typów danych takich jak tekst, dźwięk, obrazy lub wideo. Taka integracja umożliwia bardziej całościowe zrozumienie złożonych danych, co poprawia wydajność modelu w zadaniach takich jak odpowiadanie na pytania dotyczące obrazów, wyszukiwanie międzymodalne[1], generowanie obrazu na podstawie tekstu[2] czy opisywanie obrazów[3].
Duże modele multimodalne, takie jak Google Gemini i GPT-4o, zyskały na popularności od 2023 roku, oferując większą wszechstronność i szersze zrozumienie zjawisk zachodzących w świecie rzeczywistym[4].
Przypisy
- ↑ Mariya Hendriksen i inni, Extending CLIP for Category-to-image Retrieval in E-commerce, arXiv, 4 stycznia 2022, DOI: 10.48550/arXiv.2112.11294 [dostęp 2025-04-10].
- ↑ GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model [online], web.archive.org, 18 stycznia 2023 [dostęp 2025-04-10] [zarchiwizowane z adresu 2023-01-18].
- ↑ Ron Mokady, Amir Hertz, Amit H. Bermano, ClipCap: CLIP Prefix for Image Captioning, arXiv, 18 listopada 2021, DOI: 10.48550/arXiv.2111.09734 [dostęp 2025-04-10].
- ↑ Dr Tehseen Zia, Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024 [online], Unite.AI, 8 stycznia 2024 [dostęp 2025-04-10] (ang.).