Sztuczna inteligencja miażdży mistrzów szachów, ale przegrywa w grę dla dzieci. Zaskakująca słabość AI

Wydawało się, że sztuczna inteligencja od Google DeepMind znalazła uniwersalny sposób na rozpracowanie każdej gry planszowej, pokonując arcymistrzów w szachy i Go. Naukowcy odkryli jednak jej zaskakującą piętę achillesową.

Potężne algorytmy mają ogromne problemy z odkryciem reguł banalnej gry w zapałki, z którą bez trudu poradziłoby sobie dziecko.

Kiedy algorytmy z serii Alpha (takie jak AlphaZero) opanowały szachy i niezwykle skomplikowaną grę Go poprzez nieustanne granie z samymi sobą, świat technologii wstrzymał oddech. Szybko jednak zaczęto dostrzegać pewne anomalie. Ludzcy gracze odkryli specyficzne układy planszy w Go, które pokonałyby potężną AI, choć amator z łatwością by się przed nimi obronił.

Choć ogrywanie sztucznej inteligencji w planszówki może wydawać się trywialną rozrywką, w rzeczywistości pomaga naukowcom identyfikować tzw. martwe punkty algorytmów. To kluczowe badania, biorąc pod uwagę, że powierzamy AI rozwiązywanie coraz poważniejszych problemów w naszym życiu. Najnowszy artykuł opublikowany w czasopiśmie „Machine Learning” opisuje całą kategorię gier, w których metoda trenowania AlphaZero ponosi spektakularną klęskę.

Zapałki, które obnażyły słabość superkomputera

Naukowcy wzięli pod lupę grę o nazwie Nim. Jej zasady są banalnie proste. Układamy zapałki w kilku rzędach (stosach) – w jednym z klasycznych wariantów tworzą one piramidę: jeden element na szczycie, trzy pod spodem, pięć w kolejnym rzędzie i tak dalej. Dwóch graczy na zmianę zabiera zapałki z wybranego rzędu (od jednej do wszystkich w danej linii). Przegrywa ten, kto nie ma już ruchu.

Nim to klasyczny przykład tzw. gry bezstronnej. Różni się ona od szachów tym, że gracze nie mają własnych, przypisanych bierek – obaj korzystają z tej samej puli zapałek i obowiązują ich identyczne zasady. Matematycy udowodnili, że każdą pozycję w dowolnej grze bezstronnej można sprowadzić do konfiguracji z Nim.

Aby wygrywać, nie trzeba zapamiętywać tysięcy strategii. Gra ta została matematycznie rozwiązana już w XIX wieku dzięki teorii tak zwanej sumy Nim (nim-sum), która sprowadza optymalny ruch do prostej operacji logicznej XOR. Wystarczy spojrzeć na planszę i zastosować tę funkcję parzystości, która natychmiast podpowiada zwycięski ruch. Badacze Bei Zhou i Soren Riis postanowili sprawdzić, czy algorytm trenowany w stylu AlphaZero zdoła samodzielnie „wpaść” na ten matematyczny wzór.

Ślepy zaułek uczenia przez wzmacnianie

W szachach system DeepMind uczy się poprzez asocjację. Rozpoznaje układy na planszy i przypisuje im prawdopodobieństwo wygranej, powoli odkrywając najlepsze ścieżki. W grze Nim ten mechanizm okazał się zadziwiająco bezradny. Problem nie polegał na tym, że sztuczna inteligencja w ogóle nie potrafiła grać, lecz na tym, że nie była w stanie łatwo odkryć ukrytej, algebraicznej struktury gry.

Początkowo, przy zaledwie pięciu rzędach zapałek, AI radziła sobie nieźle. Jednak dodanie szóstej linii sprawiło, że tempo uczenia drastycznie spadło. Kiedy badacze ustawili siedem rzędów, nastąpiła całkowita stagnacja. Po setkach iteracji treningowych sztuczna inteligencja nie robiła już praktycznie żadnych postępów.

Aby zilustrować skalę problemu, naukowcy porównali wytrenowaną AI z programem, który wybierał zapałki całkowicie losowo. Na siedmiorzędowej planszy wyniki obu systemów były nie do odróżnienia. Choć na planszy istniały ruchy gwarantujące wygraną, system oceniał wszystkie możliwe opcje jako równie opłacalne.

Dlaczego AI nie potrafi myśleć algorytmicznie?

Wniosek z tego eksperymentu jest fascynujący i precyzyjnie diagnozuje ograniczenia dzisiejszych algorytmów. Uczenie przez wzmacnianie (reinforcement learning) doskonale radzi sobie z korelowaniem stanów gry z wynikami. Ponosi jednak spektakularną klęskę, gdy problem wymaga rozumowania symbolicznego. AI potrafi zapamiętać, że dany układ na szachownicy często kończy się matem, ale nie potrafi w locie wyprowadzić uniwersalnego równania matematycznego. Nie jest to zresztą odosobniony przypadek – w świecie AI znane są absurdalne przykłady systemów, które grają w Go na poziomie supermistrza, ale przegrywają w kółko i krzyżyk, jeśli plansza jest tylko odrobinę większa niż standardowa.

Zjawisko to badacze nazywają „namacalnym, katastrofalnym trybem awaryjnym”. Ma to ogromne znaczenie dla przyszłości technologii. Światowe korporacje pompują miliardy dolarów w rozwój modeli uczenia maszynowego, oczekując, że zaczną one bezbłędnie rozwiązywać złożone problemy inżynieryjne. Tymczasem eksperyment z zapałkami dobitnie udowadnia, że metoda oparta na statystycznym dopasowywaniu wzorców ma twarde, nieprzekraczalne granice. Perfekcyjnie wytrenowana AI działająca w nieco chaotycznym, rzeczywistym świecie może się dramatycznie pogubić, gdy dane z otoczenia przestają przypominać te, na których została wytrenowana.

Czy to faktycznie problem? Tak i wcale nie chodzi o akademickie rozważania. Wyobraź sobie AI ustawioną w fabryce, wytrenowaną olbrzymim kosztem i perfekcyjnie zarządzającą produkcją do czasu, gdy w fabryce pojawi się nowa linia produkcyjna (odpowiednik wspomnianego powiększonego pola na kółko i krzyżyk). Człowiek się po prostu adaptuje, AI trzeba… ponownie wytrenować, a to kosztuje. AI ma inne ograniczenia poznawcze niż człowiek.

Algorytm odrzuci wniosek o pożyczkę, a bank nie wyjaśni dlaczego. Nadchodzi era finansowych czarnych skrzynek

#AlphaZero #BeiZhouSorenRiis #DeepMindSztucznaInteligencja #graNim #gryBezstronne #operacjaXORNimSum #ReinforcementLearning #rozumowanieSymboliczneAI #słabościAI #uczeniePrzezWzmacnianie
The Game That Stumps AI: Why Mathematical Simplicity Defeats AlphaGo

Researchers expose a fundamental gap in AlphaZero's training method: the AI system cannot learn mathematical principles through self-play, only pattern recognition.

The Daily Perspective

13-Mar-2026
#AI’s #gamePlaying still has flaws: #AlphaZero-style self-play tested on #Nim
Despite heavy training, agents show blind spots and can miss optimal moves

https://www.eurekalert.org/news-releases/1119906

#science #technology

AI’s game-playing still has flaws: AlphaZero-style self-play tested on Nim

Games are often called the ‘Formula 1’ of AI: clear rules, clear winners. AlphaZero-style algorithms learn by self-play: a neural network predicts moves and guides tree search. We tested this recipe on Nim, a simple children’s matchstick game that has been mathematically solved. Because the correct move is known for every position, we can measure whether an agent plays optimally across the state space. We find a gap: learning can work on small boards, but blind spots remain and performance degrades as the board grows, with predictions approaching random. This suggests impartial games often need analytic representations, not pattern learning.

EurekAlert!
Just watched my homemade AlphaGo-ish bot play itself on a 9x9 board: policy heatmaps pulsing, captures snapping, win-prob lines bouncing. Feels like tiny gods arguing over territory. Thinking about opening it up for humans to challenge—should I? 🧠🕹️⚫️⚪️ #Go #AI #ReinforcementLearning #AlphaZero #MastodonTech
🧠♟️ Em 2017, o mundo do xadrez mudou para sempre: o #AlphaZero, criado pela DeepMind (Google), derrotou o Stockfish após apenas 4h de autoaprendizado.
Sem bases de dados nem “força bruta” — só redes neurais e autojogo.
O resultado? Um estilo criativo e humano que inspirou motores como Leela Chess Zero e novas variantes de xadrez.
https://www.chess.com/terms/alphazero-chess-engine
#Xadrez #IA #AlphaZero #DeepMind
AlphaZero - Chess Engines

Learn all about the AlphaZero chess program. Everything you need to know about AlphaZero, including what it is, why it is important, and more!

Chess.com

Абсолютный ноль: как ИИ учится без данных

​Absolute Zero Reasoner отличается от традиционных подходов к обучению ИИ, позволяя ИИ обучаться с нуля, без необходимости использования заранее предоставленных человеком данных.

Absolute Zero Reasoner (AZR) представляет собой революционную концепцию в области искусственного...

#DST #DSTGlobal #ДСТ #ДСТГлобал #Абсолютныйноль #искусственныйинтеллект #AbsoluteZero #ИИ #AZR #AlphaZero #DeepMind #парадигмы #Модель

Источник: https://dstglobal.ru/club/1109-absolyutnyi-nol-kak-ii-uchitsja-bez-dannyh

AlphaZero's Flexibility Flaws - Garry Karsparov

#knowledgework #ai #alphazero #machines #chess

Oops, I think I've gone a bit too deep into the #AI rabbit hole today 😳 (a thread 🧵):

Did you know why AI systems like #AlphaGo or #AlphaZero performed so well?
It was because of their _objective function_:
-1 for loosing, +1 for winning ¯\_(ツ)_/¯

Why Artificial Intelligence Like AlphaZero Has Trouble With the Real World (February 2018)

https://www.quantamagazine.org/why-artificial-intelligence-like-alphazero-has-trouble-with-the-real-world-20180221/

Try to design an objective function for a self-driving car...

1/3

#ArtificialIntelligence #RabbitHole

Why Artificial Intelligence Like AlphaZero Has Trouble With the Real World | Quanta Magazine

The latest artificial intelligence systems start from zero knowledge of a game and grow to world-beating in a matter of hours. But researchers are struggling to apply these systems beyond the arcade.

Quanta Magazine
mlx-playground/chesszero at main · koogle/mlx-playground

time to learn mlx. Contribute to koogle/mlx-playground development by creating an account on GitHub.

GitHub

This curious comparison of approximate energy cost per chess grandmaster:

**Human**: 10,000 hours x 100 W = **1MWh**
**Computer**: 4 hours x 50 W/TPU x 5,000 TPUs* = ***1MWh**

* Alphazero surpassed Stockfish 8 after 4 hours of self-play. https://en.wikipedia.org/wiki/AlphaZero

#chess #computer #alphazero #ai

AlphaZero - Wikipedia