Neue Klassenarbeit, neuer Versuch: Ich tippe ein paar Englisch-Aufsätze ab, gebe die offizielle Deskriptorentabelle und etwas Kontext hinzu, und füttere damit eine "KI" (dieses Mal #claude).

Nach 2 Versuchen, zu denen ich meine Bewertung gab, dachte ich, jetzt klappt es. Doch bei einer - meiner Meinung nach - schwachen Leistung gibt Claude plötzlich deutlich mehr Punkte. Ich spreche ihn darauf an und erwarte ein Gegenargument, doch stattdessen das:
> "Du hast völlig recht, ich revidiere meine Einschätzung. [Neue Bewertung mit Kommentar] Danke für die Korrektur!"

Fazit dieses kleinen Tests: Wenn KIs so leicht von ihrer Bewertung abzubringen sind, dann sind sie leider nutzlos. 🤷‍♂️
Hat hier jemand ähnliche/andere Erfahrungen gemacht?

#FediLZ #Englisch #ki

@florian Ich habe ein komplettes Tool dafür geschrieben, was die Handgeschriebenen Text einscannt und mit GPT anschließend bewertet. Bei den Kompetenzen, also „das wurde genannt“ oder „das wurde dargestellt“ gibt das System zuverlässig die selben Punktzahlen, auch bei mehreren Veruschen. Bei Losungen Zusammenhängen oder Argumentationen wird es dann aber schwammig. So gibt es Unterschiede nach 3 Läufen von 4 Notenstufen. MMn müste man für bessere Ergebnisse mehrere KI-Systeme koppeln