Mastodawn

🤯 > Solve this puzzle.
🤖 (Qwen3.5 35B A3B) > "Wait — the puzzle says “Solve this puzzle” — but doesn’t specify what to solve."

#LLM #AI #puzzle

Show thread

Nicolas MØUART Mar 16

@dblas Si vous avez l'occasion, je serais curieux de savoir ce que répond votre modèle. 35B ne peut pas résoudre ça.

Show thread

Nicolas MØUART Mar 25

Anthropic Sonnet 6 can't solve it either (it's silly, yet not that easy but it's a toddler game really). #Anthropic #LLM

Show thread

Nicolas MØUART Mar 25

(NB: the answer I expect is: swap C and D to form a white square. All answers are good otherwise, since the question is not directed, but this one was never proposed by any LLM that I tested)

Show thread

Nicolas MØUART 2d ago

"Ainsi, le 27 mars 2026, une nouvelle version, ARC-AGI-3, a été rendue publique. Elle introduit un changement de paradigme : au lieu de puzzles statiques, les modèles sont confrontés à des environnements interactifs dans lesquels ils doivent agir étape par étape, sans instructions explicites."

https://www.numerama.com/tech/2222071-toutes-les-ia-echouent-a-ce-test-dhumanite.html

Les meilleures IA du monde échouent à ce test conçu par un Français

Le 27 mars 2026, une nouvelle version du benchmark ARC-AGI a été rendue publique. Baptisé ARC-AGI-3, ce test évalue des systèmes d’IA dits « agentiques », capables d’agir et d’apprendre dans des environnements interactifs. Malgré leurs performances impressionnantes ailleurs, les meilleurs modèles échouent encore

Numerama

Show thread

db Mar 16

@silentexception With Qwen3.5:397b, to the prompt "Solve the puzzle given in the picture." it gave :

... (1 500 chars) ...

Conclusion: Since the question is missing, there is no single "answer." However, if this were an analogy puzzle (e.g., "A is to B as C is to..."), the answer would be D, because the relationship is "move the white square up." Similarly, if the analogy was "A is to C as B is to...", the answer would also be D (relationship: "move the white square left").

Show thread

Nicolas MØUART Mar 16

@dblas Sûrement la limite des LLMs ou pourquoi Yann LeCun parle IA physique (Physical AI).

Show thread

db Mar 16

@silentexception Je pense que Yann Le Cun parlait plutôt de robots (voitures autonomes, équations physiques, relations interpersonnelles, etc) à opposer aux modèles purement statistiques. Or, la statistique peut parfaitement mentir (suffit que le jeu de données soit pourri), la physique ne ment pas, elle.
Mais elle est parfois difficile à interpréter : mécanique de Newton/mécanique relativiste.
db