Ist euch auch schon aufgefallen, dass man an Themen, in denen man sich gut auskennt, erst so richtig merkt, wie schlecht der Output von LLMs ist?

Wenn das stimmt, bedeutet das, dass Leute, die sich allzu sehr von LLMs beeindrucken lassen, insgesamt wenig Ahnung haben.

@ennopark Man muss einfach nur die richtigen Fragen stellen...Die man aber erst kennt, wenn man das Thema verstanden hat
@ennopark oder die Themen vielleicht ohnehin zur Hälfte aus Substanzarmut bestehen.
@ennopark geht mir leider manchmal auch so mit Podcasts 🙈
@ennopark
Kennen wir das Phänomen nicht schon seit Jahrzehnten von TV-Dokumentationen?
@mardor @ennopark Oh, das war auch schon vor Jahrzehnten Jahren bei Artikeln in renommierten Zeitungen und Zeitschriften zu beobachten.
Wobei die auch gemäß des Mottos „wess Brot ich ess, dess Lied ich sing“ entstanden sein können.

@ennopark Viel schlimmer wird es anders herum: wenn ich vom Thema nur so eine ungefähre Ahnung habe, neige ich wohl eher dazu, den Schrott zu glauben, da der Chatbot mir vorgaukelt, er/sie/es hätte Ahnung.
Die Dinger erinnern mich immer mehr an die hier

https://inv.nadeko.net/watch?v=ONAqkTe2SRU

@ennopark Das war seinerzeit mein erster Test von ChatGPT: Fachliche Frage, die Antwort war erschütternd falsch.
Ewiges Misstrauen gesichert.
@kiefheim @ennopark Wobei das auch ein Fall von "falsches Werkzeug für die Aufgabe" ist.
LLMs sind keine Datenbanken, sondern Stochastik. Das ist nicht per se komplett wertlos.
@larsmb @ennopark Ich weiß das. Ich erzähle allen möglichen Leuten ständig, dass Chatty keine Suchmaschine ist. Aber viele Leute nutzen es ja genau dafür.

@larsmb @kiefheim @ennopark naja, Stochastik mit einem oft brauchbaren fit für in-sample-Prognosen, leider ohne Angabe von Gütemaßen, Prognosefehler u.ä. ... und die 1-3% fehlerhaft prognostizierter Content sind leider die, auf die es fachlich ankäme, der Rest sind füllwörter, allgemeine Satzkonstruktion u.s.w.

Wobei meine Erfahrung auch ist, dass viele auch Prognosen mit konfidenzband nicht verstehen. Selbst wenn man es ihnen direkt davor und wiederholt erklärt hat.

@dancing_goblin @kiefheim @ennopark Ja, es gibt viele Fälle, in denen es die falschen Tools sind oder in denen sie falsch eingesetzt werden.
Ich finde es nur unredlich es so darzustellen, als gäbe es überhaupt keine sinnvollen Anwendungsfälle.

Die Probleme sind Hype und Ethik. Insbesondere letzteres, weil ersteres ein Spezialfall davon ist. Nicht dass die Tools komplett sinnlos sind.

@larsmb @dancing_goblin @ennopark Vielleicht ganz interessant in diesem Zusammenhang: das MI-Siegel für menschliche Intelligenz. mi-siegel.de. Hier garantieren Profis aus verschiedenen Branchen, dass man bei ihnen echte und vom Fachmensch geprüfte Arbeit bekommt, dass sie KI-Tools bei ihrer Arbeit nicht unkontrolliert einsetzen, sondern dass Verstand und Fachwissen immer das letzte Wort haben.
Man kann sich ja sonst auf nichts mehr verlassen.

@ennopark Ich fand das hier sehr aufschlussreich:

https://www.derstandard.at/story/3000000284449/wie-top-manager-die-ki-heute-schon-nutzen

LLMs sind ein High-Level-Tool. Wo es auch vorher schon darauf ankam, sich einen schnellen und oberflächlichen Überblick über möglichst viele Themen zu verschaffen, sparen sie vermutlich tatsächlich Zeit. Leider gehört genau das zur Jobbschreibung von CEOs.

Wie Top-Manager die KI heute schon nutzen

Führende österreichische CEOs geben praxisnahe Tipps, wie man durch Künstliche Intelligenz den oft stressigen Geschäftsalltag vereinfacht

DER STANDARD

@abuehling

wenn das die KI kann, dann braucht man ja wohl keine CEOs mehr? ¯\_(ツ)_/¯

@abuehling @ennopark das Problem ist ja nicht, dass LLMs oberflächlich wären. Das Gegenteil ist ja der Fall. Die generierten Ausgaben gehen teilweise sehr ins Detail. Imho ist das Problem die inhaltliche Unzuverlässigkeit, obwohl immer in überzeugtem Tonfall formuliert wird.
@ennopark das kennt man auch schon länger beim Zeitung lesen: der Artikel zum eigenen Thema erscheint flach und schräg. Schon beim nächsten Beitrag/umblättern ist das aber wieder verflogen und man zweifelt jene Inhalte nicht so an...
@ennopark Ja. Ich finde, man sollte LLMs nur in diesen Bereichen einsetzen (so überhaupt), in denen man ihre Ausgaben validieren kann.
@ennopark
LLMs als Dunning-Kruger-Effekt-Detektor?
@ennopark Ja, aber die Blender profitieren im Moment davon.
@ennopark
Das fatale ist, das man ja in der Regel Infos zu Dingen sucht, von dem man keine Ahnung hat.

@olaf_radicke @ennopark das Schlüsselwort ist hier "suchen".

Ein LLM ist halt dafür nur bedingt geeignet.

@ennopark ist eine andere Ausprägung des Gell-Mann-Amnesie-Effekts. https://en.wikipedia.org/wiki/Gell-Mann_amnesia_effect
Gell-Mann amnesia effect - Wikipedia

@datenwolf @ennopark

das kannte ich noch nicht, sehr erhellend, danke

@Enno Park das stellt quasi jeder und jede fest, die LLM mal nach dingen befragt haben, die schon im eigenen wissensumfeld liegen. bei mir waren das irgendwelche computer-probleme, wo ich so halb bescheid wusste, aber hoffte LLM könnten das präzisieren. die ergebnisse waren total lächerlich: mehrfach absolut falsch und ein paar mal so unvollständig, dass man nichts damit anfangen konnte. aber alles in einem sehr überzeugenden stil geschrieben, das können LLM mittlerweise sehr gut ... das müsste man eigentlich alle schulkinder mehrfach durchexerzieren lassen ...
Bastardino di pesce (@[email protected])

Proof me wrong: the reason llms seem to work so well for some jobs is not because they don't produce shit: it's because those jobs, hell some whole industries we're bullshit from the start

chaos.social

@ennopark

Das ist offensichtlich. LLM ist nicht dazu da, Menschen zu beeindrucken. Es ist ein Werkzeug, das unterstützen und weiterhelfen kann. Insbesondere dort, wo man sich nicht so gut auskennt. Das enthebt aber niemanden der Pflicht und Verantwortung, das Ergebnis zu prüfen.

@Ryek Darkener
Insbesondere dort, wo man sich nicht so gut auskennt
das ist aber eine sehr trügerische ansicht. nach meiner erfahrung ist die information durch LLM oft falsch oder unvollständig. gerade, wenn man sich nicht gut auskennt, darf man sich in keinster weise auf das ergebnis eines propmts verlassen. man muss dann das ergebnis nachkontrollieren, genau so, als würde man sich von vornherein darin einarbeiten .. LLM ist also in solch einem fall überflüssig, ja geradezu ein hindernis.

@jabgoe2089

Das "von vorneherein einarbeiten" ist unter Umständen sehr zeitaufwändig.
Beispiel: Ich möchte ein Shellskript, welches mir aus einer Anzahl von Text-Dateien bestimmte Inhalte extrahiert. Natürlich kann ich mich vorab in die Syntax der Dateien sowie sed und awk einarbeiten. Wenn ich weiß, was ich will, und mich auskenne, spart mir die LLM einen Tag Arbeit, da ich mit vorhandener Kompetenz den Lösungsprozess steuern und das Ergebnis verstehen kann. Ich bekomme es sogar erklärt.

@Ryek Darkener ok, bei so etwas einfachem wie ein programm ohne größere komplexität ist das natürlich weniger problematisch. da erfolgt die kontrolle mit ./lass-programm-laufen.

ich dachte eher an solche dinge wie, nenne mir die anteile an nicht beschäftigbaren arbeitslosen innerhalb der gesamtzahl der arbeitslosen, aufgegliedert nach geschlecht, alter und ausbildung.

also irgendwas, was manager gerne sehen und dann sagen: hier, so isses, der computer gibt mir recht!

@jabgoe2089

Manager und Politiker, die sagen "hier, so isses, der computer gibt mir recht!" haben den falschen Job.

Ein LLM wird, basierend auf den vorhandenen Daten, ganz sicher richtig arbeiten.
Aber Managen und gesellschaftsverträgliche Politik sind eben mehr als "Ergebnisse zu verkünden".
Und – offen gesagt – würde ich aktuell einem guten LLM mehr Ehrlichkeit bei der Interpretation der Ergebnisse zutrauen als den offiziell verantwortlichen Personen.

@Ryek Darkener öhh ... ja ... falscher job ... und nu? politik und obere firmenetagen sind voll mit solchen leuten. und die verlangen von allen anderen an ihrer halluzination über die allmacht der LLM teilzunehmen ....

@jabgoe2089

Ich weiß.
Das ändert nichts an der objektiven Richtigkeit meines Standpunktes.

@_RyekDarkener_
So richtig wie das die Trainingsdaten zulassen. In Nischendomänen und in Domänen, wo Mythen Fakten quantitativ ausstechen, wird ein allgemeines LLM immer schlechte Ergebnisse liefern. Bei Newtonscher Bewegung wird sie dagegen recht akkurat sein.

Kontextbewusstsein und kritisches Hinterfragen sollte man nie ausschalten, egal mit wem man chattet.

@jabgoe2089

@_RyekDarkener_
Hätt' ich fast vergessen, man muss auch wissen wo LLMs grundsättlich versagen, zb können sie nicht rechnen...

@jabgoe2089

@ennopark Mein allererster Versuch, ChatGPT ernsthaft einzusetzen, statt nur damit herumzualbern, war eine komplette Pleite, eine Mischung aus hoffnungslos veralteten Informationen und wilden realitätsfernen Behauptungen. Es war dann auch mein letzter Versuch, seitdem habe ich ChatGPT vielleicht zehnmal benutzt, ausschließlich zum Herumalbern.

@LordCaramac @ennopark

Geht our ähnlich. Es erspart einem vielleicht eine Riesentextmenge lesen zu müssen, wenn ich eigentlich nur einen schnellen Überblick haben will. Aber bei sehr konkreten Fragen finden die Dinger keine Antwort. Da bin ich besser dran, mich selber durch Quellen zu lesen. Und ich stelle eben häufiger Fragen, wo ich eben nicht wissen will, was mir gefühlt jeder runterbeten kann.

Ein schnelles Template für irgendwas konkretes, das geht auch. Grobe Anregung.

Aber Sachfragen zu einem speziellen Sachverhalt, wo ich gezielt eine bestimmte Information suche. Nope.

@ennopark ja, das fällt allgemein auf. Sinnvolle Verwendungen gibt es imho trotzdem, z.B.:

Einfache Routinetätigkeiten automatisieren, bei denen sich das Scripting sonst nicht rentiert hätte.

Sich "vom LLM prompten" lassen: z.B. zu einem Themenbereich Übungsaufgaben vorschlagen lassen und die dann selbst ausarbeiten.

Schreibblockaden überwinden: Statt vor dem leeren Bildschirm zu verzweifeln den Output des LLMs als schlechtes Beispiel nehmen und es selber besser machen.

LLM als Lektor

@uhrmann @ennopark
Konzeptsuche. Du hast was im Kopf, weißt aber nicht, wie das heißt. Also beschreibst du das Konzept dem LLM und bekommst die passenden Suchbegriffe zurück, mit denen du an sinnvolle Informationen kommst.
Eine Zeit lang konnte man ChatGPT auch gut für Kochrezepte (insbesondere Modifikationen) benutzen, aber das ist mittlerweile auch passé.

@ennopark fällt mir jedesmal auf, wenn ich es für die Arbeit doch noch Mal ausprobiere.

In meiner DND Runde habe ich mir damit ein Abenteuer ausschmücken lassen. Selbst da war nur ein kleiner Teil brauchbar.

@ennopark Erklärt wohl, warum AI im Gegensatz zu den meisten modernen technologien mehr von der weniger gut ausgebildeten Bevölkerung adaptiert wird als von gut ausgebildeten.
@ennopark

Und dass
#KI zur weiteren massiven Verdummung führt.
@ennopark Was würde passieren, wenn man ein LLM über LLMs fantasieren ließe?
@ennopark leider fällen die Leute, die den Output von LLMs super finden, die Entscheidungen.
@ennopark LLM taugen maximal als bessere Suchmaschinen, wenn man nur Links zu Websites sucht, weil man in herkömmlichen Suchmaschinen außer Werbung nix mehr findet.
@ennopark „ich habe die Kabel am Verstärker so angeschlossen wie ChatGPT vorgeschlagen hat“. Gebrauchsanleitung suchen oder auf Rückseite die Beschriftung lesen wäre besser gewesen.
@ennopark Aus einem ähnlichen Grund lese ich die „Stiftung Warentest“ nicht mehr. Die soll einen ja beraten in Themen, von denen man keine Ahnung hat. Bis man darin einen Artikel über ein Thema liest, in dem man sich WIRKLICH auskennt. Und dann stellt man alle anderen auch in Frage.
@mok24 @ennopark
Ich lese das seit ca. 40 Jahren nicht (mehr), Damals war ein Test über (8 Bit?) Computer und der C64 war da einer der schlechtesten Computer. War irgendwann 1985-1987. Keine ahnung wann genau und konnte nix im Web finden.
War nur Marktführer. Kann mich leider nicht erinnern, wer da Gewinner war.
@Hal_9000 @ennopark War bei mir damals erstaunlicherweise sehr ähnlich. Verglichen wurden drei Plattformen: MS-DOS PC, Amiga und (ich glaube) Atari ST. Nicht nur, dass MS-DOS ohne GUI gewann, man nahm dafür eine Beta von DOS (v3.3?) gegen die beiden etablierten Systeme mit graphischer Oberfläche und Mausbedienung. Jahreszahl weiss ich nicht mehr, aber seitdem kaufe ich keine Ausgabe mehr.
@ennopark
Ja, geht mir leider schon seit vielen Jahren genauso mit den allermeisten Presseerzeugnissen.
Man kann wohl von einem LLM nicht erwarten, besser zu sein als seine Trainingsdaten.

@ennopark So faszinierend das auch alles sein mag, diese Scheiße macht so grundlegende Fehler, bei Basis-Wissen, das ein Einsatz im beruflichen Umfeld geradezu hochriskant erscheint.

Dennoch für manche Kreativ-Aufgaben find ich das spannend. Also z.B. eine Idee für einen neuen Track-titel erarbeiten.

@ennopark Hier, ein ganz aktuelles Beispiel aus dem wahren Leben. Finde den Fehler.

@ennopark

Sagen wir mal so: Das Phänomen ist mir bei Artikeln aus der "Qualitätspresse" auch schon häufiger aufgefallen, bevor es LLMs gab.

(LLMs machen es nur noch schlimmer).