Zgodność sztucznej inteligencji

Zgodność sztucznej inteligencji[1] (ang. AI alignment) – sterowanie systemami sztucznej inteligencji w taki sposób, aby odpowiadały one zamierzonym celom, preferencjom lub zasadom etycznym danej osoby lub grupy. System sztucznej inteligencji uznaje się za zgodny z oczekiwaniami, jeżeli realizuje zamierzone cele. Niewłaściwie dopasowany system sztucznej inteligencji realizuje niezamierzone cele[2].

Charakterystyka

Projektanci sztucznej inteligencji często mają trudności z dostosowaniem systemu AI, ponieważ trudno im określić pełen zakres pożądanych i niepożądanych zachowań. Dlatego projektanci sztucznej inteligencji często stosują prostsze cele zastępcze, takie jak uzyskanie akceptacji człowieka . Jednak cele zastępcze mogą pomijać niezbędne ograniczenia lub nagradzać system sztucznej inteligencji za samo pozorne dopasowanie[2][3]. Systemy sztucznej inteligencji mogą również znaleźć luki, które pozwolą im na skuteczne osiągnięcie celów zastępczych, ale w niezamierzony, a czasem szkodliwy sposób[2][4].

Zaawansowane systemy sztucznej inteligencji mogą rozwijać niepożądane strategie instrumentalne, takie jak dążenie do władzy lub przetrwania, ponieważ takie strategie pomagają im osiągnąć wyznaczone cele końcowe[2][5][6]. Oprócz tego, mogą one powodować powstawanie niepożądanych, pojawiających się celów, które mogą być trudne do wykrycia przed wdrożeniem systemu i napotkaniem nowych sytuacji wraz z ich adaptacjami[7][8]. Badania empiryczne wykazały w 2024 r., że zaawansowane duże modele językowe, takie jak OpenAI o1 czy Claude 3, czasami stosują strategiczne oszustwa, aby osiągnąć swoje cele lub zapobiec ich zmianie[9][10].

Obecnie niektóre z tych problemów dotyczą istniejących systemów komercyjnych, takich jak LLMy[11][12][13], roboty[14], pojazdy autonomiczne[15] i silniki rekomendacyjne w mediach społecznościowych[12][6][16]. Wraz z postępem sztucznej inteligencji ten problem może być bardziej widoczny[17][4][3].

Zgodzność sztucznej inteligencji jest poddziedziną bezpieczeństwa sztucznej inteligencji, czyli nauki o tym, jak budować bezpieczne systemy sztucznej inteligencji[18]. Inne poddziedziny bezpieczeństwa sztucznej inteligencji obejmują solidność, monitorowanie i kontrolę możliwości[19]. Wyzwania badawcze w zakresie dostosowania obejmują wstrzykiwanie złożonych wartości w sztuczną inteligencję, rozwijanie uczciwej sztucznej inteligencji, skalowalny nadzór, audyt i interpretację modeli sztucznej inteligencji oraz zapobieganie pojawiającym się zachowaniom sztucznej inteligencji, takim jak dążenie do władzy[19]. Badania nad dopasowaniem są powiązane z badaniami nad wyjaśnialnością[20][21], wykrywaniem anomalii, weryfikacją formalną[22], teorią gier[23] i naukami społecznymi[24][25].

Przypisy

  1. Helena Jańczuk, Selected Threats of Artificial Intelligence on the Example of American Society [online], 1 lipca 2024 [dostęp 2025-05-13].
  2. 1 2 3 4 Artificial Intelligence: A Modern Approach [online], www.pearson.com [dostęp 2025-05-13].
  3. 1 2 Richard Ngo, Lawrence Chan, Sören Mindermann, The Alignment Problem from a Deep Learning Perspective, arXiv, 4 maja 2025, DOI: 10.48550/arXiv.2209.00626 [dostęp 2025-05-13].
  4. 1 2 Alexander Pan, Kush Bhatia, Jacob Steinhardt, The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [online], 6 października 2021 [dostęp 2025-05-13] (ang.).
  5. Joseph Carlsmith, Is Power-Seeking AI an Existential Risk?, arXiv, 13 sierpnia 2024, DOI: 10.48550/arXiv.2206.13353 [dostęp 2025-05-13].
  6. 1 2 Human Compatible by Stuart Russell: 9780525558637 | PenguinRandomHouse.com: Books [online], PenguinRandomhouse.com [dostęp 2025-05-13] (ang.).
  7. The Alignment Problem - Description | W. W. Norton & Company Ltd. [online], web.archive.org, 10 lutego 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-02-10].
  8. Lauro Langosco Di Langosco i inni, Goal Misgeneralization in Deep Reinforcement Learning, PMLR, 28 czerwca 2022, s. 12004–12019 [dostęp 2025-05-13] (ang.).
  9. Tharin Pillay, New Tests Reveal AI's Capacity for Deception [online], TIME, 15 grudnia 2024 [dostęp 2025-05-13] (ang.).
  10. Billy Perrigo, Exclusive: New Research Shows AI Strategically Lying [online], TIME, 18 grudnia 2024 [dostęp 2025-05-13] (ang.).
  11. Long Ouyang i inni, Training language models to follow instructions with human feedback [online], arXiv.org, 4 marca 2022 [dostęp 2025-05-13] (ang.).
  12. 1 2 Rishi Bommasani i inni, On the Opportunities and Risks of Foundation Models, arXiv, 12 lipca 2022, DOI: 10.48550/arXiv.2108.07258 [dostęp 2025-05-13].
  13. OpenAI Codex [online], web.archive.org, 3 lutego 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-02-03].
  14. Reinforcement learning in robotics: A survey - Jens Kober, J. Andrew Bagnell, Jan Peters, 2013, web.archive.org, 15 października 2022, DOI: 10.1177/0278364913495721 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-10-15].
  15. W. Bradley Knox i inni, Reward (Mis)design for Autonomous Driving [online], arXiv.org, 28 kwietnia 2021 [dostęp 2025-05-13] (ang.).
  16. Jonathan Stray, Aligning AI Optimization to Community Well-Being, „International Journal of Community Well-Being”, 3 (4), 2020, s. 443–463, DOI: 10.1007/s42413-020-00086-3, ISSN 2524-5309, PMID: 34723107, PMCID: PMC7610010 [dostęp 2025-05-13].
  17. Artificial Intelligence: A Modern Approach, 4th US ed. [online], aima.cs.berkeley.edu [dostęp 2025-05-13].
  18. Dario Amodei i inni, Concrete Problems in AI Safety, arXiv, 25 lipca 2016, DOI: 10.48550/arXiv.1606.06565 [dostęp 2025-05-13].
  19. 1 2 Building safe artificial intelligence: specification, robustness, and assurance | by DeepMind Safety Research | Medium [online], web.archive.org, 10 lutego 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-02-10].
  20. Quanta Magazine [online], web.archive.org, 10 lutego 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-02-10].
  21. Finale Doshi-Velez, Been Kim, Towards A Rigorous Science of Interpretable Machine Learning, arXiv, 2 marca 2017, DOI: 10.48550/arXiv.1702.08608 [dostęp 2025-05-13].
  22. Stuart Russell, Daniel Dewey, Max Tegmark, Research Priorities for Robust and Beneficial Artificial Intelligence, arXiv, 10 lutego 2016, DOI: 10.48550/arXiv.1602.03506 [dostęp 2025-05-13].
  23. Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda – Center on Long-Term Risk [online], web.archive.org, 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-01-01].
  24. AI Safety Needs Social Scientists [online], web.archive.org, 10 lutego 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-02-10].
  25. Alexandros Gazos i inni, Organising AI for safety: Identifying structural vulnerabilities to guide the design of AI-enhanced socio-technical systems, „Safety Science”, 184, 2025, s. 106731, DOI: 10.1016/j.ssci.2024.106731, ISSN 0925-7535 [dostęp 2025-05-13].