Mastodawn

Bon, ça fait à peu près 6 mois, il est temps de tenter une fois de plus les "petites LLMs" open weight qui peuvent tourner sur mon GPU.

Voyons... Qwen3.5 est sorti y a pas longtemps, les benchmarks ont l'air correct, essayons la version 9b (j'avais essayé Qwen3 12b il y a 6 mois, là il n'y a pas encore de 12b)

Bien sûr, ma RX6700XT n'est pas officiellement supportée pour ROCm parce que AMD est un peu nul, donc ça tourne sur mon CPU par défaut, ce qui est ultra lent...

Première requête : un simple serveur HTTP en Gleam. Ça hallucine un paquet pour faire un serveur HTTP, quand je lui dis d'utiliser mist/wisp ça met pas mal de temps à "penser" que je suis confus parce que ça ne connaît pas ces paquets, et n'est pas capable de me donner une bonne réponse. Eh, au moins ça produit du Gleam avec une syntaxe correcte, même si les libs ne sont pas correctes, c'est mieux que la dernière fois !

Deuxième requête : vu que c'est très lent, et que je ne me rappelle pas de la variable d'environnement à utiliser, voyons si ça peut m'aider...
Ça trouve assez rapidement la bonne variable, mais ça "réfléchit" pendant 5 minutes pour me trouver une mauvaise valeur, heureusement j'ai pu googler le bon résultat. Pour son crédit, quand je lui ai dit que c'était pas bon, ça m'a ensuite donné la bonne valeur.

Bref, je vais peut-être expérimenter encore un petit peu mais pour l'instant, les modèles qui tournent localement sur un GPU grand marché ne semblent pas encore suffisant pour être utiles pour des tâches déconnectées. Et vu que le focus ces derniers temps a surtout été sur les outils, et les intégrations en ligne, je doute que ça s'améliore beaucoup... On va voir comment c'est dans 6 mois hein. En attendant, je vais continuer à coder de façon artisanale.