DeepSeek
| Państwo | |
|---|---|
| Siedziba | |
| Data założenia |
2023 |
| Dyrektor |
Liang Wenfeng |
| Zatrudnienie |
160 (2025)[1] |
Położenie na mapie Chin ![]() | |
| Strona internetowa | |
DeepSeek (chiń. 深度求索, pinyin: Shēndù Qiúsuǒ) – chińska firma zajmująca się sztuczną inteligencją, która opracowuje open-source'owe duże modele językowe. Siedziba firmy mieści się w Hangzhou w prowincji Zhejiang. Została założona w 2023 r., a jej pierwotny współtwórca, Liang Wenfeng, pełni funkcję jej dyrektora generalnego. Firma jest własnością chińskiego funduszu hedgingowego High-Flyer i jest przez niego w całości finansowana.
DeepSeek uzyskał międzynarodowy rozgłos po wydaniu modelu DeepSeek R1 tworząc konkurencję dla takich chatbotów jak ChatGPT[2], mimo że według oficjalnego przekazu został opracowany przy znacznie niższych kosztach na poziomie 6 milionów dolarów amerykańskich, w porównaniu do 78 milionów dolarów za GPT-4 firmy OpenAI w 2023 r. i wymaga dziesiątej części mocy obliczeniowej porównywalnego LLM[3][4].
Modele i produkty
Modele mieszanki ekspertów
9 stycznia 2024 został ogłoszony duży model językowy korzystający z techniki mieszanki ekspertów[5]. W porównaniu z modelem Llama od Meta dostępnym od lutego 2023, model wymagał tylko 28,5% wymaganych obliczeń[6].
Modele matematyczne
W kwietniu 2024 zespół wydał trzy modele matematyczne: Base, Instruct i RL. Modele te próbowały wykonać kroki logiczne podobne do operacji matematycznych po trenowaniu modelu równaniami matematycznymi[7].
V2
.svg.png)
Prace nad mechanizmem uwagi doprowadziły do opracowania własnej wersji tej techniki o nazwie Multihead Latent Attention (MLA)[8], która pozwala na uzyskanie ok 10% zmniejszenia wielkości modelu w połączeniu w modelem mieszkanki ekspertów. Koszt inferencji modelu wyniósł jedną siódmą kosztu GPT-4[9].
V3
_01.svg.png)
Wersja V3 modelu została oparta na V2 i stosuje technikę zwaną multi-token prediction training[10]. Podczas treningu zastosowano również zmienną precyzję zmiennoprzecinkową aby zmniejszyć czas treningu[11]. Trenowanie zajęło 2788 godzin na procesorach NVidia H800, z późniejszym dostrajaniem i uczeniem przez wzmacnianie. V3 składa się z 671 mld parametrów[12]. Porównania z modelami Llama i GPT-4 pokazywały przewagę V3 nad pozostałymi modelami[13][14].
R1
Został R1 opracowany w okresie sankcji USA nałożonych na Chiny za układy scalone firmy Nvidia, których celem było ograniczenie możliwości kraju w zakresie opracowywania zaawansowanych systemów sztucznej inteligencji[15][16]. Dalsze ustalenia dziennikarskie wskazują jednak, że koszty wytworzenia modelu były znacznie wyższe. 6 milionów dolarów zostało wydane na fragment prac nad modelem, a całkowite koszty są trudne do ustalenia, chociaż najprawdopodobniej i tak pozostają niższe niż w przypadku ChatGPT. Według przecieków, do uczenia modelu wykorzystano około 50 tysięcy kart Nvidia, które w związku z nałożonymi sankcjami musiały zostać pozyskane nielegalnie[17].
Model został oparty na automatycznym uczeniu przez wzmacnianie, bez nadzorowanego dostrajania, które pozwoliło na osiągnięcie lepszego łańcucha myśli[18].
10 stycznia 2025 r. firma wydała swoją pierwszą bezpłatną aplikację chatbota, która do 27 stycznia prześcignęła ChatGPT i stała się najczęściej pobieraną bezpłatną aplikacją w App Store w Stanach Zjednoczonych, co spowodowało spadek ceny akcji firmy Nvidia o 18%[19][20][21].
DeepSeek udostępnił swój generatywny chatbot oparty na sztucznej inteligencji jako oprogramowanie typu open source, co oznacza, że jego kod jest swobodnie dostępny do użytku, modyfikacji i przeglądania[22].
Cenzura i obawy dotyczące prywatności

Oficjalna wersja API R1 stosuje mechanizmy cenzury w przypadku tematów drażliwych, zwłaszcza tych, które są uważane za politycznie drażliwe dla rządu Chińskiej Republiki Ludowej. Na przykład model ten odmawia odpowiedzi na pytania dotyczące protestów na placu Tian’anmen w 1989 r. i masakry na nim, prześladowań Ujgurów lub praw człowieka w Chinach[23]. Sztuczna inteligencja może początkowo wygenerować odpowiedź, ale wkrótce potem ją usunie i zastąpi wiadomością: „Przepraszam, to wykracza poza moje obecne kompetencje. Porozmawiajmy o czymś innym”[23]. Podczas testów przeprowadzonych przez NBC News, R1 DeepSeek opisał Tajwan jako „nieodłączną część terytorium Chin” i stwierdził: „Zdecydowanie sprzeciwiamy się wszelkim formom separatystycznych działań na rzecz ' niepodległości Tajwanu ' i jesteśmy zaangażowani w osiągnięcie całkowitego zjednoczenia ojczyzny za pomocą pokojowych środków”[24].
Istnieją również obawy, że system sztucznej inteligencji może zostać wykorzystany do wywierania wpływu na zagranicę, dezinformacji, nadzoru i opracowywania cyberbroni dla chińskich służb specjalnych[25]. Ponadto (podobnie jak w przypadku TikToka) eksperci ostrzegają, że aplikacja przesyła dane osobowe do ChRL[26].
Pod koniec stycznia 2025 dostęp do wersji internetowej i aplikacji mobilnej DeepSeek został zablokowany we Włoszech. Głównym powodem podanym przez rząd był brak transparentności odnośnie przechowywania danych[27]. DeepSeek został również zablokowany na poziomie administracji państwowej w Australii, Tajwanie i stanie Nowy Jork[28][29][30]. W lutym 2025 Korea Południowa zablokowała możliwość pobierania aplikacji mobilnej w celu zapewnienia zgodności z krajowymi przepisami o ochronie danych osobowych[31].
UODO zaleca ostrożność w korzystaniu z chatbota ze względu na możliwość przechowywania danych w ChRL, czyli kraju, dla którego Komisja Europejska nie wydała decyzji stwierdzającej odpowiedni poziom ochrony danych[32][33].
Przypisy
- ↑ Brimming with rewards – but mind the risks [online], Australian Financial Review, 14 kwietnia 2025 [dostęp 2025-05-11] (ang.).
- ↑ Elizabeth Gibney. China's cheap, open AI model DeepSeek thrills scientists. „Nature”, 23 stycznia 2025. DOI: 10.1038/d41586-025-00229-6. ISSN 1476-4687. PMID: 39849139. (ang.).
- ↑ Peter Hoskins: DeepSeek Chinese AI chatbot sparks market turmoil for rivals. BBC, 27 stycznia 2025. (ang.).
- ↑ Emma Cosgrove: DeepSeek's cheaper models and weaker chips call into question trillions in AI infrastructure spending. Business Insider, 27 stycznia 2025.
- ↑ Cade Metz, What to Know About DeepSeek and How It Is Upending A.I., „The New York Times”, 27 stycznia 2025, ISSN 0362-4331 [dostęp 2025-04-16] (ang.).
- ↑ Paper page - DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models [online], huggingface.co, 9 czerwca 2024 [dostęp 2025-04-16].
- ↑ Zhihong Shao i inni, DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv, 27 kwietnia 2024, DOI: 10.48550/arXiv.2402.03300 [dostęp 2025-04-16].
- ↑ DeepSeek-AI i inni, DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, arXiv, 19 czerwca 2024, DOI: 10.48550/arXiv.2405.04434 [dostęp 2025-04-16].
- ↑ Jordan Schneider, Deepseek: The Quiet Giant Leading China’s AI Race [online], www.chinatalk.media [dostęp 2025-04-16] (ang.).
- ↑ Fabian Gloeckle i inni, Better & Faster Large Language Models via Multi-token Prediction, arXiv, 30 kwietnia 2024, DOI: 10.48550/arXiv.2404.19737 [dostęp 2025-04-16].
- ↑ DeepSeek-AI i inni, DeepSeek-V3 Technical Report, arXiv, 18 lutego 2025, DOI: 10.48550/arXiv.2412.19437 [dostęp 2025-04-16].
- ↑ Ege Erdil, How has DeepSeek improved the Transformer architecture? [online], Epoch AI, 17 stycznia 2025 [dostęp 2025-04-16] (ang.).
- ↑ Chinese start-up DeepSeek’s new AI model outperforms Meta, OpenAI products [online], South China Morning Post, 27 grudnia 2024 [dostęp 2025-04-16] (ang.).
- ↑ Cade Metz, What to Know About DeepSeek and How It Is Upending A.I., „The New York Times”, 27 stycznia 2025, ISSN 0362-4331 [dostęp 2025-04-16] (ang.).
- ↑ Cliff Saran: Nvidia investigation signals widening of US and China chip war | Computer Weekly. Computer Weekly, 10 grudnia 2024.
- ↑ Natalie Sherman: Nvidia targeted by China in new chip war probe. BBC, 9 grudnia 2024.
- ↑ Chińczycy zadziwili świat. "Efekt sputnika" [online], Onet Wiadomości, 2 lutego 2025 [dostęp 2025-03-13].
- ↑ The DeepSeek Series: A Technical Overview [online], martinfowler.com [dostęp 2025-04-22].
- ↑ Hayden Field: China's DeepSeek AI dethrones ChatGPT on App Store: Here's what you should know. CNBC, 27 stycznia 2025.
- ↑ What is DeepSeek, and why is it causing Nvidia and other stocks to slump? - CBS News. www.cbsnews.com, 27 stycznia 2025.
- ↑ Thomas Barrabi: Nvidia stock suffers record wipeout on DeepSeek fears -- as CEO Jensen Huang's net worth tanks. 27 stycznia 2025.
- ↑ Luis E. Romero: ChatGPT, DeepSeek, Or Llama? Meta's LeCun Says Open-Source Is The Key. Forbes.
- 1 2 Jakob Steinschaden: DeepSeek: This is what live censorship looks like in the Chinese AI chatbot. Trending Topics, 27 stycznia 2025. (ang.).
- ↑ Chinese AI DeepSeek jolts Silicon Valley, giving the AI race its 'Sputnik moment'. NBC News, 27 stycznia 2025. (ang.).
- ↑ China’s DeepSeek AI poses formidable cyber, data privacy threats | Biometric Update [online], www.biometricupdate.com, 26 stycznia 2025 [dostęp 2025-01-28] (ang.).
- ↑ Matt Burgess, DeepSeek’s Popular AI App Is Explicitly Sending US Data to China, „Wired”, ISSN 1059-1028 [dostęp 2025-01-28] (ang.).
- ↑ Włochy blokują DeepSeek. Kontrowersyjna decyzja w sprawie chińskiej sztucznej inteligencji [online], Bankier.pl, 31 stycznia 2025 [dostęp 2025-04-16].
- ↑ Australia bans DeepSeek AI program on government devices [online], France 24, 4 lutego 2025 [dostęp 2025-04-16] (ang.).
- ↑ Taiwan bans government agencies from using DeepSeek [online], France 24, 1 lutego 2025 [dostęp 2025-04-16] (ang.).
- ↑ New York state bans DeepSeek from government devices [online], NBC News, 10 lutego 2025 [dostęp 2025-04-16] (ang.).
- ↑ Korea Południowa zablokowała możliwość pobierania DeepSeek [online], Business Insider Polska, 17 lutego 2025 [dostęp 2025-04-16].
- ↑ UODO zaleca ostrożność w korzystaniu z DeepSeek [online], www.uodo.gov.pl [dostęp 2025-04-19].
- ↑ UODO zaleca ostrożność w korzystaniu z DeepSeek | Biznes PAP [online], biznes.pap.pl [dostęp 2025-04-19].
Linki zewnętrzne
- DeepSeek-R1 - komentarz techniczny - Puls AI, Remigiusz Kinas
- DeepSeek w serwisie GitHub
- DeepSeek w serwisie Hugging Face
