Bielik (model językowy)
![]() | |
| Autor | SpeakLeash |
|---|---|
| Pierwsze wydanie | 24 marca 2024(dts) |
| Aktualna wersja stabilna | Bielik v3 |
| Rodzaj | Duży model językowy |
| Licencja | Apache 2.0[1] |
| Strona internetowa | |
Bielik – polski otwarty duży model językowy stworzony przez fundację SpeakLeash, dzięki zasobom obliczeniowym Akademickiego Centrum Komputerowego Cyfronet AGH[2]. Założeniem Bielika jest lepsze dopasowanie do języka polskiego oraz polskich realiów[3]. Jednym z inicjatorów projektu jest Sebastian Kondracki[4].
Oprócz oficjalnej strony Bielik jest także dostępny na platformie Hugging Face[5], gdzie użytkownicy mogą przetestować jego możliwości. Model, jak i narzędzia pomocne przy jego tworzeniu (zestaw danych, pakiety programistyczne), są dostępne na licencji open-source, co umożliwia szeroki dostęp do jego funkcji i zastosowań[6].
Historia
Pierwsza wersja Bielika została opublikowana w kwietniu 2024 roku[7][8], natomiast druga – 28 sierpnia 2024 roku. Od wersji 2.0 model udostępniany jest na licencji licencji Apache 2.0[1].
Bielik opiera się na modelu fundamentalnym Mistral-7B i posiada 11 miliardów parametrów, co jest znacznie mniejszą liczbą w porównaniu do modeli takich jak GPT-3, które mają 175 mld parametrów (dane z kwietnia 2024 r.)[6].
Bielik został wytrenowany na danych w języku polskim[3], dzięki zasobom obliczeniowym dwóch najszybszych (wg stanu na 2025) superkomputerów w Polsce – Heliosa i Atheny, udostępnionych przez Akademickie Centrum Komputerowe Cyfronet AGH[2]. Do wytrenowania Bielika użyto zasobów dostępnych na wolnej licencji takich jak: polskie dokumenty prawne, ustawy, Projekt Gutenberg czy Wikipedia[9].
W 2025 roku nad Bielikiem pracowało 50-80 osób, z czego 20 zajmuje się wyszukiwaniem danych i rozwojem narzędzi, a 10 to zespół trenujący[9].
Twórcy pracują także nad projektem Sójka, który umożliwia blokadę treści pochodzących z dużego modelu językowego w zależności od ustawionej kategorii np. przemoc czy wulgaryzmy[10].
6 maja 2025 została wydana wersja 3 Bielika w dwóch rozmiarach: 1,5 i 4,5 mld parametrów, wraz z wersją 2.5 z 11 mld parametrów[11]. Modele w wersji 3 są oparte na modelu fundamentalnym Qwen 2.5 i posiadają własny tokenizer dostosowany do języka polskiego[12][11].
W maju 2025 roku Bielik dostał nagrodę Money.pl w kategorii Technologia Roku[13].
Odbiór
Model Bielik został pozytywnie przyjęty w środowisku polskich specjalistów zajmujących się sztuczną inteligencją, przede wszystkim za możliwość lokalnego uruchamiania oraz otwartość kodu i danych treningowych[14]. W 2024 roku projekt SpeakLeash, w ramach którego powstał Bielik, otrzymał wyróżnienie w kategorii „AI Spotlight” podczas konferencji GOSIM 2024[15] oraz nagrodę specjalną Masters&Robots[16].
Bielik-7B-Instruct-v0.1 osiągnął wysokie wyniki w polskim rankingu OpenLLM Leaderboard, zwłaszcza w zadaniach związanych z wyszukiwaniem informacji i klasyfikacją[17]. Model został również doceniony za możliwość działania bez konieczności przesyłania danych na zewnętrzne serwery[18].
Zobacz też
Przypisy
- 1 2 Terms and conditions of use [online], Bielik.ai [dostęp 2025-03-29].
- 1 2 Bielik – polski model językowy powstał w AGH. [dostęp 2025-03-29].
- 1 2 Bielik wylądował! Polski model językowy rozwinął skrzydła dzięki superkomputerom z AGH. 2024-03-30. [dostęp 2025-03-29].
- ↑ Jak powstał Bielik? Historia polskiego modelu językowego. Sebastian Kondracki, SpeakLeash. [dostęp 2025-03-30].
- ↑ speakleash (SpeakLeash | Spichlerz) [online], huggingface.co, 26 października 2024 [dostęp 2025-03-30].
- 1 2 Anna Paśko: Polski Bielik. Nowy model AI – co potrafi i jak skorzystać?. 2024-06-05. [dostęp 2025-03-29].
- ↑ Bielik wylądował!. 2024-04-24. [dostęp 2025-03-29].
- ↑ Krzysztof Ociepa i inni, Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation, „arXiv”, 2024, DOI: 10.48550/arXiv.2410.18565, arXiv:2410.18565 [dostęp 2025-03-30].
- 1 2 Nikola Bochyńska, Zbiórka na „polski ChatGPT”. Ten rok będzie kluczowy [online], cyberdefence24.pl, 4 lutego 2025 [dostęp 2025-04-26] (pol.).
- ↑ Kuba Dobroszek, Nowe narzędzie od twórców Bielika. Sójka to algorytm, który ochroni cię w internecie [online], My Company Polska, 14 marca 2025 [dostęp 2025-04-26] (pol.).
- 1 2 Adam Jadczak, SpeakLeash zaproponował nowe modele Bielik 11B v2.5 i dwa lekkie modele 3.0 [online], ITwiz, 6 maja 2025 [dostęp 2025-05-19].
- ↑ Krzysztof Ociepa i inni, Bielik v3 Small: Technical Report, arXiv, 8 maja 2025, DOI: 10.48550/arXiv.2505.02550 [dostęp 2025-05-19].
- ↑ Michał Wąsowski: Bielik, czyli Polacy nie gęsi, swoje AI mają. Oto Technologia Roku Money.pl. Money.pl, 2025-05-14. [dostęp 2025-05-15].
- ↑ Bielik – polski model AI: wszystko, co musisz wiedzieć. CTOwiec, 2024-04-29. (pol.).
- ↑ GOSIM 2024 – podsumowanie konferencji. GOSIM, 2024-10-12. (pol.).
- ↑ Masters&Robots 2024 – wydarzenie o przyszłości technologii. Digital Poland Foundation, 2024-09-18. (pol.).
- ↑ OpenLLM Leaderboard PL. Hugging Face, 2024-04-01. (ang.).
- ↑ Bielik – polski model AI: wszystko, co musisz wiedzieć. CTOwiec, 2024-04-29. (pol.).
