Bezpieczeństwo sztucznej inteligencji

Bezpieczeństwo sztucznej inteligencji[1] – interdyscyplinarna dziedzina skupiająca się na zapobieganiu wypadkom, niewłaściwemu użyciu i innym szkodliwym konsekwencjom wynikającym z działania aplikacji sztucznej inteligencji. Obejmuje to etykę maszyn i ich zgodność, a także monitorowanie systemów sztucznej inteligencji pod kątem ryzyka i zwiększanie ich niezawodności. Obszar ten zajmuje się w szczególności zagrożeniami egzystencjalnymi, jakie niosą ze sobą zaawansowane modele sztucznej inteligencji.

Motywacje

Naukowcy omawiają obecne zagrożenia wynikające z awarii systemów krytycznych[2], stronniczości[3], i nadzoru wspomaganego sztuczną inteligencją[4], a także pojawiające się zagrożenia, takie jak bezrobocie technologiczne, manipulacja cyfrowa[5], uzbrojenie sztucznej inteligencji[6], cyberataki wspomagane sztuczną inteligencją[7] i bioterroryzm[8]. Analizowane są także potencjalne ryzyka wynikające z utraty kontroli nad ogólną sztuczną inteligencji[9] lub wynikające z możliwości tworzenia przez sztuczną inteligencję totalitaryzmów[10].

Cel badań

Obszary badań nad bezpieczeństwem sztucznej inteligencji obejmują solidność, monitorowanie i dostosowanie[11][12].

Odporność

Odporność na ataki

Systemy AI są często podatne na ataki antagonistyczne czy celowo spreparowane dane wejściowe[13]. W 2013 pokazano, że dodanie do obrazu określonych, niezauważalnych zaburzeń może spowodować jego błędną klasyfikację z dużym prawdopodobieństwem[14]. Problem ten nadal stanowi problem w sieciach neuronowych, choć istnieją metody dające możliwość wykrywania takich perturbacji[15][16][17].

Przykład nałożenia spreparowanego filtra służącego do oszukania klasyfikatora i zaklasyfikowania obrazu psa beagle jako ostrygi

Również sygnał audio można niezauważalnie zmodyfikować, tak aby systemy przetwarzające mowę na tekst mogły go przepisać na dowolną wiadomość wybraną przez atakującego[18]. Systemy wykrywania włamań do sieci[19] i złośliwego oprogramowania[20] muszą być również odporne na ataki ze strony atakujących, ponieważ mogą oni projektować swoje ataki w taki sposób, aby oszukać detektory.

Monitorowanie

Wykrywanie złośliwego użycia

Systemy sztucznej inteligencji mogą być wykorzystywane do pomagania złośliwym podmiotom[21] w konstruowaniu broni[22], manipulowaniu opinią publiczną[23][24] lub automatyzowaniu cyberataków[25]. Obawy te stanowią problem dla firm takich jak OpenAI, które udostępniają w Internecie narzędzia AI[26]. Aby zapobiec niewłaściwemu wykorzystaniu, OpenAI opracowała systemy wykrywania, które oznaczają użytkowników flagami lub ograniczają ich aktywność na podstawie ich aktywności[27].

Transparentność

Sieci neuronowe często sa porównywane do czarnych skrzynek[28], co oznacza, że trudno jest zrozumieć, dlaczego podejmują takie, a nie inne decyzje, biorąc pod uwagę ogromną liczbę wykonywanych przez nie obliczeń[29]. Utrudnia to przewidywanie i analizę błędów. W 2018 roku autonomiczny samochód zabił pieszego, ponieważ nie rozpoznał go i ze względu na charakter czarnej skrzynki oprogramowania AI przyczyna awarii pozostaje niejasna[30]. W opiece zdrowotnej pojawiają się dyskusje na temat tego, czy należy stosować statystycznie wydajne, ale nieprzejrzyste modele[31].

Jedną z najważniejszych zalet przejrzystości jest możliwość wyjaśnienia [32]. Czasami wymogiem prawnym jest podanie wyjaśnienia, dlaczego podjęto daną decyzję, aby zapewnić jej uczciwość, na przykład w przypadku automatycznego filtrowania aplikacji o pracę lub przypisywania wyników oceny kredytowej[32].

Wykrywanie trojanów

Modele uczenia maszynowego mogą potencjalnie zawierać konie trojańskie lub furtki: luki, które złośliwi użytkownicy złośliwie umieszczają w systemie sztucznej inteligencji. Jako przykład, zainfekowany trojanem system rozpoznawania twarzy mógłby udzielić dostępu, gdy w polu widzenia znajduje się konkretny element biżuterii[33] lub zainfekowany trojanem pojazd autonomiczny mógłby działać normalnie, dopóki nie pojawi się konkretny wyzwalacz[34].

Duże modele językowe są podatne na osadzenie furtek podczas treningu w formie uśpionych agentów. Standardowe środki bezpieczeństwa sztucznej inteligencji, takie jak uczenie nadzorowane czy uczenie przez wzmacnianie nie usunęły tych backdoorów[35].

Problem zgodności

Zgodność sztucznej inteligencji ma na celu kierowanie systemami AI w stronę zamierzonych celów, preferencji lub zasad etycznych osoby lub grupy. System AI jest uważany za dopasowany, jeśli realizuje zamierzone cele. Niedopasowany system AI realizuje niezamierzone cele[36].

Przypisy

  1. BADANIA | NASK SCIENCE [online], science.nask.pl [dostęp 2025-05-13] (ang.).
  2. Maria De-Arteaga, Machine Learning in High-Stakes Settings: Risks and Opportunities [online] (ang.).
  3. Ninareh Mehrabi i inni, A Survey on Bias and Fairness in Machine Learning, arXiv, 25 stycznia 2022, DOI: 10.48550/arXiv.1908.09635 [dostęp 2025-05-13].
  4. Syed Ali Hadi, The Global Expansion of AI Surveillance Report: A Critical Appraisal for South Asia [online], Centre for Strategic and Contemporary Research, 30 października 2019 [dostęp 2025-05-13] (ang.).
  5. Risks from AI persuasion - LessWrong [online], web.archive.org, 23 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-23].
  6. Miles Brundage i inni, The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation, 20 lutego 2018, DOI: 10.17863/CAM.22520 [dostęp 2025-05-13].
  7. How NATO is preparing for a new era of AI cyber attacks [online], euronews, 26 grudnia 2022 [dostęp 2025-05-13] (ang.).
  8. Sarah Morgan, The Double-Edged Sword: Opportunities and Risks of AI in Biosecurity [online], Georgetown Security Studies Review, 15 listopada 2024 [dostęp 2025-05-13] (ang.).
  9. Joseph Carlsmith, Is Power-Seeking AI an Existential Risk?, arXiv, 13 sierpnia 2024, DOI: 10.48550/arXiv.2206.13353 [dostęp 2025-05-13].
  10. The grim fate that could be ‘worse than extinction’ [online], www.bbc.com, 16 października 2020 [dostęp 2025-05-13] (ang.).
  11. Dan Hendrycks i inni, Unsolved Problems in ML Safety, arXiv, 16 czerwca 2022, DOI: 10.48550/arXiv.2109.13916 [dostęp 2025-05-13].
  12. DeepMind Safety Research: Building safe artificial intelligence: specification, robustness, and assurance. Medium, 2018-09-27. [dostęp 2022-11-23]. [zarchiwizowane z tego adresu (2023-02-10)].
  13. Attacking Machine Learning with Adversarial Examples [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  14. Christian Szegedy i inni, Intriguing properties of neural networks, arXiv, 19 lutego 2014, DOI: 10.48550/arXiv.1312.6199 [dostęp 2025-05-13].
  15. Alexey Kurakin, Ian Goodfellow, Samy Bengio, Adversarial examples in the physical world, arXiv, 11 lutego 2017, DOI: 10.48550/arXiv.1607.02533 [dostęp 2025-05-13].
  16. Aleksander Madry i inni, Towards Deep Learning Models Resistant to Adversarial Attacks, arXiv, 4 września 2019, DOI: 10.48550/arXiv.1706.06083 [dostęp 2025-05-13].
  17. Harini Kannan, Alexey Kurakin, Ian Goodfellow, Adversarial Logit Pairing, arXiv, 16 marca 2018, DOI: 10.48550/arXiv.1803.06373 [dostęp 2025-05-13].
  18. Nicholas Carlini, David Wagner, Audio Adversarial Examples: Targeted Attacks on Speech-to-Text, arXiv, 30 marca 2018, DOI: 10.48550/arXiv.1801.01944 [dostęp 2025-05-13].
  19. Ryan Sheatsley i inni, Adversarial Examples in Constrained Domains, arXiv, 9 września 2022, DOI: 10.48550/arXiv.2011.01183 [dostęp 2025-05-13].
  20. Octavian Suciu, Scott E. Coull, Jeffrey Johns, Exploring Adversarial Examples in Malware Detection, arXiv, 13 kwietnia 2019, DOI: 10.48550/arXiv.1810.08280 [dostęp 2025-05-13].
  21. The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation [online], web.archive.org, 23 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-23].
  22. Fabio Urbina i inni, Dual Use of Artificial Intelligence-powered Drug Discovery, „Nature Machine Intelligence”, 4 (3), 2022, s. 189–191, DOI: 10.1038/s42256-022-00465-9, ISSN 2522-5839, PMID: 36211133, PMCID: PMC9544280 [dostęp 2025-05-13].
  23. Truth, Lies, and Automation [online], Center for Security and Emerging Technology [dostęp 2025-05-13] (ang.).
  24. Propaganda-as-a-service may be on the horizon if large language models are abused | VentureBeat [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  25. Automating Cyber Attacks - Center for Security and Emerging Technology [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  26. Lessons Learned on Language Model Safety and Misuse [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  27. New and Improved Content Moderation Tooling [online], web.archive.org, 11 stycznia 2023 [dostęp 2025-05-13] [zarchiwizowane z adresu 2023-01-11].
  28. Breaking into the black box of artificial intelligence [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  29. Key Concepts in AI Safety: Interpretability in Machine Learning - Center for Security and Emerging Technology [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  30. Uber pulls self-driving cars after first fatal crash of autonomous vehicle [online], web.archive.org, 24 listopada 2022 [dostęp 2025-05-13] [zarchiwizowane z adresu 2022-11-24].
  31. Ryan Marshall Felder, Coming to Terms with the Black Box Problem: How to Justify AI Systems in Health Care, „Hastings Center Report”, 51 (4), 2021, s. 38–45, DOI: 10.1002/hast.1248, ISSN 1552-146X [dostęp 2025-05-13] (ang.).
  32. 1 2 Finale Doshi-Velez i inni, Accountability of AI Under the Law: The Role of Explanation, arXiv, 20 grudnia 2019, DOI: 10.48550/arXiv.1711.01134 [dostęp 2025-05-13].
  33. Dan Hendrycks i inni, Unsolved Problems in ML Safety, arXiv, 16 czerwca 2022, DOI: 10.48550/arXiv.2109.13916 [dostęp 2025-05-13].
  34. Tianyu Gu, Brendan Dolan-Gavitt, Siddharth Garg, BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain, arXiv, 11 marca 2019, DOI: 10.48550/arXiv.1708.06733 [dostęp 2025-05-13].
  35. How 'sleeper agent' AI assistants can sabotage code • The Register [online], web.archive.org, 24 grudnia 2024 [dostęp 2025-05-13] [zarchiwizowane z adresu 2024-12-24].
  36. Artificial Intelligence: A Modern Approach [online], www.pearson.com [dostęp 2025-05-13].