Mastodawn

@CptCheesyCrust Interessant. Ich empfinde Gemini eher als bescheiden. Was empfindest du denn bei Gemini als gut? Ich finde, es halluziniert wirklich sehr stark.

Show thread

bbₜᵤₓᵢ Feb 20

@gr33n93 @CptCheesyCrust

Probier doch mal Gemini 3.0 Pro High aus, die Gratis-Versionen taugen leider nicht viel.

Show thread

Gr33n93

@tux @CptCheesyCrust, das ist genau das besagte Modell, das ich probiert habe.

Show thread

bbₜᵤₓᵢ Feb 20

@gr33n93 @CptCheesyCrust

Hm okay, weiß jetzt auch nicht genau. Bin mit den Antworten zufrieden. Ich nutze #Gemini primär für IT-Themen, vermutlich gibt es in dem Gebiet weniger Halluzinationen.

Show thread

Gr33n93 Feb 20

@tux @CptCheesyCrust Wir haben den gleichen Verwendungszweck. Verwendest du auch intensives agentisches Coding und Code Reviews für kleinere und größere Projekte oder Ergänzungen?

Show thread

bbₜᵤₓᵢ Feb 20

@gr33n93 @CptCheesyCrust

Ich verwende eigentlich nur Antigravity bei ein paar kleineren Projekten. Ich habe manchmal allerdings das Gefühl, dass er irgendwann richtig dumm wird, wenn eine Coding-Session länger dauert. Und dann mache ich meistens erst am nächsten Tag weiter. Vielleicht fällt man automatisch intern auf Flash zurück 🤔

Show thread

Gr33n93 Feb 21

@tux das ist eines der Fehlerbilder, die ich bei Gemini bestätigen kann. Gemini bekommt dann einfachste Sachen nicht mehr hin, z. B. das Feld machst du Rot, nachher ist es Grün und die Anforderung war 3 Anfragen vorher. Es werden dann auch Sachen im Code verändert, die nichts mit der Funktion, an der man arbeitet, zu tun hat. Ob das Flash ist, weiß ich nicht, bei mir wird es nicht schneller, daher denke ich eher nein. Vermutlich haben sie sich mit dem 1M Kontextfenster übernommen.

Show thread

Gr33n93 Feb 21

@tux Ich nutze den AI Ultra Plan, um das zu testen. Ich hätte an der Stelle sogar eine Bevorzugung. Bei mir tritt dieses merkwürdige Verhalten ab einem Fenster von 130.000 Token auf, ob das jetzt Zufall ist, kann ich nicht sagen.
Zum Vergleich: Bei Opus oder Codex hatte ich diesen Spaß noch nicht so ausgeprägt. Codex bekommt es aber bei 180k Token auch hin, merkwürdige Dinge zu machen. Vermutlich macht Opus daher die Zusammenfassung weit vorher und läuft durch diese zuverlässiger.