Mieszanka ekspertów

Mieszanka ekspertów (ang. mixture of experts, MoE ) – technika uczenia maszynowego, w której używa się wielu sieci ekspertów do podziału przestrzeni problemu na jednorodne regiony[1]. MoE reprezentuje formę uczenia się zespołowego[2].

Podstawowa teoria

Bazowa wersja MoE składa się z następujących komponentów:

  • Eksperci , z takimi samymi danymi wejściowymi i produkcją wyników .
  • Funkcja wagi , który przyjmuje dane wejściowe i generuje wektor wyników lub wektor prawdopodobieństw
  • zbiór parametrów . Parametr jest dla funkcji ważenia, a parametry są dla ekspertów.
  • Dla danych wejściowych mieszanka ekspertów tworzy pojedynczy wynik poprzez połączenie według ciężarów przez funkcję łączenia jak .

Uczenie głębokie

MoE znalazło zastosowanie w uruchamianiu największych modeli dzięki możliwości wykonywania obliczeń warunkowych dzięki czemu aktywowane są tylko te części modelu, które są najbardziej odpowiednie dla danych wejściowych[3].

Równoważenie obciążenia

W przypadku MoE zwykle występują problemy z równoważeniem obciążeń. Niektórzy eksperci są używani często, inni zaś rzadko lub wcale. Aby zachęcić funkcję wagi do wybierania każdego eksperta z równą częstotliwością i zrównoważyć obciążenie, każda warstwa MoE może mieć dodatkową pomocniczą funkcje celu w architekturze Switch Transformer[4].

Jeżeli jest liczbą ekspertów, to dla danej serii zapytań pomocnicza funkcja celu dla tej serii wynosi: jest częścią zapytań, które wybrały eksperta , a jest częścią wagi dla eksperta . Funkcja celu jest minimalizowana przy czyli, gdy każdy ekspert ma taką samą wagę w każdej sytuacji.

Architektura DeepSeek V2 MoE. Pokazana jest również ukryta uwaga wieloczłonowa

Naukowcy z DeepSeek zaprojektowali wariant MoE z ekspertami współdzielonymi, którzy są zawsze odpytywani i ekspertów rutowanych, którzy są pytani pod pewnymi warunkami. Zauważyli oni, że standardowe równoważenie obciążenia do równego rozłożenia obciążenia ale również do replikowania tych samych umiejętności np wyuczenie gramatyki języka angielskiego. Zaproponowali oni podejście, aby współdzieleni eksperci zostali wyuczeni wspólnych możliwości, które są często używane, a mniej używane zostały wyuczone przez ekspertów rutowanych[5].

Zaproponowali oni również strategię bez pomocniczej funkcji celu. Zamiast tego każdy ekspert ma dodatkową wagę . Jeśli ekspert jest pomijany, jego waga wzrasta i odwrotnie, jeżeli jest używany, jego waga maleje. Podczas przydzielania zadań, każde zadanie wybiera kilku najlepszych ekspertów, ale z uwzględnieniem wagi:[5] Należy pamiętać, że wagi ekspertów mają znaczenie przy wyborze ekspertów, ale nie przy sumowaniu ich odpowiedzi.

Użycie w transformatorach

Warstwy MoE są używane w największych modelach opartych na transformatorach, szczególnie w warstwie jednokierunkowej sieci neuronowej aby zmniejszyć koszt inferencji[6][7]. Dla przykładu, 90% parametrów modelu PALM-540B jest używanych do warstw sieci jednokierunkowej[8].

W grudniu 2023 Mistral AI wypuścił model MoE Mixtral 8x7B. Jest to model z 46.7 mld parametrami i 8 ekspertami[9].

W marcu 2024 Databricks wypuścił model DBRX z 132 mld parametrami i 16 ekspertami[10].

W maju 2024 DeepSeek opublikował wersję modelu MoE V2 z 236 mld parametrów[11].

W kwietniu 2025 został wydany model Llama 4 Maverick z 128 ekspertami, każdy z nich mający 17 mld aktywnych parametrów, dających łącznie 400 mld parametrów[12].

Przypisy

  1. Tara Baldacchino i inni, Variational Bayesian mixture of experts models and sensitivity analysis for nonlinear dynamical systems, „Mechanical Systems and Signal Processing”, 66, 2016, s. 178–200, DOI: 10.1016/j.ymssp.2015.05.009, ISSN 0888-3270 [dostęp 2025-04-17] (ang.).
  2. Pattern Classification Using Ensemble Methods | Series in Machine Perception and Artificial Intelligence, www.worldscientific.com, DOI: 10.1142/7238#t=aboutbook [dostęp 2025-04-17] (ang.).
  3. Yoshua Bengio, Nicholas Léonard, Aaron Courville, Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation, arXiv, 15 sierpnia 2013, DOI: 10.48550/arXiv.1308.3432 [dostęp 2025-04-17].
  4. William Fedus, Barret Zoph, Noam Shazeer, Switch transformers: scaling to trillion parameter models with simple and efficient sparsity, „J. Mach. Learn. Res.”, 23 (1), 2022, 120:5232–120:5270, DOI: 10.5555/3586589.3586709, ISSN 1532-4435 [dostęp 2025-04-17].
  5. 1 2 Damai Dai i inni, DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, arXiv, 11 stycznia 2024, DOI: 10.48550/arXiv.2401.06066 [dostęp 2025-04-17].
  6. Noam Shazeer i inni, Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, arXiv, 23 stycznia 2017, DOI: 10.48550/arXiv.1701.06538 [dostęp 2025-04-17].
  7. Dmitry Lepikhin i inni, GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, arXiv, 30 czerwca 2020, DOI: 10.48550/arXiv.2006.16668 [dostęp 2025-04-17].
  8. Transformer Deep Dive: Parameter Counting [online], web.archive.org, 11 kwietnia 2023 [dostęp 2025-04-17] [zarchiwizowane z adresu 2023-04-11].
  9. Mixtral of experts | Mistral AI [online], mistral.ai [dostęp 2025-04-17] (ang.).
  10. Introducing DBRX: A New State-of-the-Art Open LLM [online], Databricks, 27 marca 2024 [dostęp 2025-04-17] (ang.).
  11. deepseek-ai/DeepSeek-V2 · Hugging Face [online], huggingface.co, 3 stycznia 2025 [dostęp 2025-04-17].
  12. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation [online], web.archive.org, 5 kwietnia 2025 [dostęp 2025-04-23] [zarchiwizowane z adresu 2025-04-05].

Linki zewnętrzne