Lock-free код и шахматы: где LLM показывают свою несостоятельность
Все мы привыкли к тому, что нейросети творят чудеса. Suno генерирует музыку неотличимую от человеческой, Flux рисует картины лучше многих художников, Claude переводит тексты так, что даже носители языка не сделают это лучше. Создается впечатление, что искусственный интеллект вот-вот заменит нас во всех сферах деятельности. Но есть одна маленькая проблема. Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь, что становится стыдно, что знаком с ними.
https://habr.com/ru/articles/935700/
#LLM #шахматы #lockfree #lockfree_algorithms #lockfree_структуры_данных
Компьютеры, которые играют в игры
Кто победит, если две одинаковые программы устроят между собой шахматный турнир? Будут ли партии всегда заканчиваться вничью или у белых будет преимущество первого хода? старая добрая шутка про расизм И есть ли какая-то выигрышная стратегия, которая позволила бы полному чайнику одолеть чемпиона? Сегодня мы поговорим про игры, а в частности – про шахматы. От математики в этой заметке не осталось ничего, кроме парочки больших чисел, и она является скорее кратким историческим обзором. Однако теория игр без шахмат – как самолет без двигателя, так что заваривайте чаёк и присаживайтесь.
Ваша модель не играет в шахматы а только притворяется :)
В комментариях обратили внимание на статью от 2022 года, где специалисты компании Meanotek взялись специально натренировать GPT-2 "весьма прилично играть в шахматы". К счастью они оставили демо-страничку где можно поиграть против их модели - то есть, потестировать результат вместо чтения длинной статьи (о чем пару слов тоже скажем). Ну я и потестировал, получил интересные результаты, но в отличие от профессора Выбегалло с удовольствием сейчас их вам расскажу - будут представлены 3 тестовых игры, буквально в несколько ходов каждая - по крайней мере в первой модель держится неплохо... до поры :)
Некоторые замечания об игре в Шахматы против LLM (на примере deepseek)
Поскольку LLM (все эти ChatGPT, DeepSeek и т.п.) это языковые модели, которые по идее просто складывают ответ из кусочков фраз, как в калейдоскопе - мы не ожидаем от них чудес логики. Тем больше они нас удивляют пытаясь генерировать ответы на достаточно мудрёные задачи - от генерации и исправления программного кода до, например, игры в шахматы. Идея с игрой в шахматы хороша тем что на ней легко продемонстрировать и неспециалисту как возможности так и ограничения LLM. Эксперименты на эту тему появились уже давно, например в статье на Хабре же от 2023 года . Там автор на 6м ходу сделал неправильный ход но LLM этого не заметила. Мы кратенько посмотрим есть ли прогресс в этом направлении, попробуем немного изменить подход и потестируем ещё пару игр. (сразу скажу - несмотря на прошедшие два года и явно принятые разработчиками усилия добиться адекватности мне почти не удалось)
Как хитрый Накамура глупую Рыбку обыграл
Гуляя по Хайрулу в прошлые выходные, я обнаружил озеро, в котором проживала волшебная фея. — Скажи, мудрая фея, как мне поступить? Если я пишу про политику, то модераторы удаляют мои статьи. — Не пиши про политику и твои статьи удалять не будут, — ответила фея. — Но мне нравится обсуждать политику! — Нет никакой политики и все на свете политика, — сказала фея. И нырнула обратно в озеро, обдав меня брызгами. «А ведь фея права! — воскликнул я, — Природа удивительно скупа. Раз заметив какую‑то закономерность, ты начинаешь видеть её во всём — раковины морских гадов закручиваются в соответствии с числами Фибоначчи, листья на ветке располагаются в соответствии с числами Фибоначчи, даже кролики размножаются в соответствии с числами Фибоначчи… Природа не будет делать какие‑то отдельные законы для политики — она подчиняется общим, универсальным правилам. Это означает, что за многими сложнейшим процессам, можно найти простые стратегии, обеспечивающие их работу. Так можно предсказать поведение социальных процессов, подобрав правильный упрощенный аналог — потому что они действуют по схожим алгоритмам. Осознав это, я сразу решил написать о знаменитой шахматной партии между восходящей шахматной звездой Хикару Накамурой и компьютерной программой Рыбка, серьёзно превосходящей его по уровню владения шахматами. Последнее очень важно — Рыбка была способна просчитывать возникающую на доске позицию заметно глубже, чем человек. Просто потому, что она никогда ничего не пропускает и не зевает. Казалось бы, у Накамуры не было никаких шансов — несколько лет назад, подобная шахматная программа переиграла великого Каспарова. Тем не менее Накамура смог. И это было красиво: