Uczenie multimodalne

Uczenie multimodalne – rodzaj uczenia głębokiego, który integruje i przetwarza wiele typów danych takich jak tekst, dźwięk, obrazy lub wideo. Taka integracja umożliwia bardziej całościowe zrozumienie złożonych danych, co poprawia wydajność modelu w zadaniach takich jak odpowiadanie na pytania dotyczące obrazów, wyszukiwanie międzymodalne[1], generowanie obrazu na podstawie tekstu[2] czy opisywanie obrazów[3].

Duże modele multimodalne, takie jak Google Gemini i GPT-4o, zyskały na popularności od 2023 roku, oferując większą wszechstronność i szersze zrozumienie zjawisk zachodzących w świecie rzeczywistym[4].

Przypisy

  1. Mariya Hendriksen i inni, Extending CLIP for Category-to-image Retrieval in E-commerce, arXiv, 4 stycznia 2022, DOI: 10.48550/arXiv.2112.11294 [dostęp 2025-04-10].
  2. GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model [online], web.archive.org, 18 stycznia 2023 [dostęp 2025-04-10] [zarchiwizowane z adresu 2023-01-18].
  3. Ron Mokady, Amir Hertz, Amit H. Bermano, ClipCap: CLIP Prefix for Image Captioning, arXiv, 18 listopada 2021, DOI: 10.48550/arXiv.2111.09734 [dostęp 2025-04-10].
  4. Dr Tehseen Zia, Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024 [online], Unite.AI, 8 stycznia 2024 [dostęp 2025-04-10] (ang.).