Mastodawn

Kubły zimnej wody od twórców Claude’a. Raport Anthropic obnaża prawdę o tym, jak (nie) radzimy sobie z AI

Mieliśmy w 2026 roku leżeć na hamakach, podczas gdy AI pracuje za nas. Rzeczywistość? Jest nieco inna.

Anthropic, twórcy modelu Claude, opublikowali „Economic Index” – analizę opartą nie na ankietach, ale na twardych logach z miliona interakcji. Wnioski? AI to wciąż głównie narzędzie dla programistów, a pełna automatyzacja to mit, który drogo kosztuje firmy.

To nie ankieta, to „twarde” logi

Raport jest unikalny, bo nie pyta ludzi „jak używacie AI?”, tylko sprawdza „co faktycznie robiliście”. Anthropic przeanalizował milion rozmów użytkowników prywatnych oraz milion wywołań API przez firmy w listopadzie 2025 roku.

Kodowanie, kodowanie i… jeszcze raz kod

Pierwszy wniosek to cios dla wizji „AI do wszystkiego”. Użycie modeli językowych jest niesamowicie skoncentrowane. Zarówno w przypadku konsumentów (prawie 25%), jak i firm (prawie 30%), dominującym zastosowaniem jest pisanie i modyfikowanie kodu.

Poza programowaniem nie wyłoniły się żadne inne, statystycznie istotne zastosowania masowe. To sugeruje, że szerokie wdrażanie AI w firmach „na siłę” jest błędem. AI sprawdza się tam, gdzie jego skuteczność jest udowodniona (kod), a nie tam, gdzie chcieliby tego menedżerowie.

Współpraca wygrywa z automatyzacją

Raport pokazuje fascynujący rozdźwięk między użytkownikami domowymi a biznesem:

Konsumenci: rozmawiają z botem, poprawiają go, iterują. To model „współpracy” (augmentation).
Firmy: próbują wrzucić zadanie w API i oczekują gotowego wyniku. To model „automatyzacji”.

Jednak najciekawsze jest co innego. Okazuje się, że podejście konsumenckie jest… skuteczniejsze. Przy złożonych zadaniach, które wymagają dłuższego „czasu do namysłu”, jakość wyników AI drastycznie spada, jeśli nie ma człowieka, który koryguje kurs w trakcie. Pełna automatyzacja sprawdza się tylko przy zadaniach krótkich, prostych i rutynowych.

Podatek od nieufności

Ekonomiści przewidywali, że AI podniesie produktywność o 1,8% rocznie. Anthropic sugeruje rewizję tych prognoz do poziomu 1–1,2%. Dlaczego?

Bo AI myli się. Zysk z szybszego wykonania zadania jest częściowo „zjadany” przez czas, jaki człowiek musi poświęcić na weryfikację wyniku, poprawianie błędów i walidację. To tzw. „koszt obsługi” (overhead), o którym często zapomina się w entuzjastycznych prezentacjach.

Masz słaby prompt? Masz słaby wynik

Na koniec brutalna prawda o naszych umiejętnościach. Raport wykazał niemal idealną korelację między stopniem wyrafinowania promptu (polecenia) a sukcesem zadania.

Jeśli narzekasz, że Claude lub GPT „głupieje”, prawdopodobnie problem leży po stronie klawiatury. W 2026 roku wciąż umiejętność rozmowy z maszyną (Prompt Engineering) to nie „szarlataneria”, ale twarda kompetencja, która decyduje o tym, czy AI jest dla ciebie użyteczne, czy tylko irytujące.

Zainteresowanych odsyłam do pełnego raportu Anthropic.

AI nie jest magiczną różdżką, a lustrem. To, co w nim zobaczysz, zależy tylko od ciebie

#AnthropicEconomicIndex #automatyzacjaVsAugmentation #ClaudeUżytkowanie #news #produktywnośćAI #promptEngineering #raportAI2026

N-gated Hacker News Mar 27, 2025

🎉 Behold the magnum opus of digital enlightenment: the 'Anthropic Economic Index'! 🌟 Dive deep into the economic abyss, where the groundbreaking insight is... wait for it... to enable #JavaScript and cookies! 🍪💻 Truly, a revolutionary sonnet for the ages. 🔮✨
https://www.anthropic.com/news/anthropic-economic-index-insights-from-claude-sonnet-3-7 #digitalenlightenment #AnthropicEconomicIndex #cookies #innovation #techrevolution #HackerNews #ngated

Hacker News Mar 27, 2025

Anthropic Economic Index: Insights from Claude 3.7 Sonnet

https://www.anthropic.com/news/anthropic-economic-index-insights-from-claude-sonnet-3-7

#HackerNews #AnthropicEconomicIndex #Claude3.7 #Sonnet #AIInsights #Economics

katzenberger 🇺🇦Feb 11, 2025

The most interesting part of this post/study on the "#AnthropicEconomicIndex", for me, is how this is supposed to preserve #privacy.

The raw data, described as "over four million Claude.ai conversations", are essentially real-world snapshots of 4 million sessions where people typed in all kinds of job-related information, to be processed via "#AI".

Anthropic's privacy policy allows for using that data in "aggregated or de-Identified" form, which seems to be an automated process performed by a system called Clio.

The privacy preservation of that aggregation is assessed and validated using an "automated privacy auditor" that returns a score between 1 (aggregated info still "Identifiable to an Individual") to 5 ("Not Identifiable").

They say: "Results from these validation efforts showed that the auditor achieved a 98% accuracy rate on our hand-designed test set."

That is, on a fixed, carefully curated set of data, 2 rows in every 100 were misclassified, in terms of "too much identifiable stuff in here, or not?"

Now imagine letting this "automated privacy auditor" give its thumbs up, or thumbs down, regarding the "aggregated and de-identified" raw data of 4 million sessions with an "AI".

They have published the "aggregated and de-identified" data set (3.51K rows, all links below), but so far, I can't find a statement on how much "polishing" was done on it by humans, to weed out the misclassified stuff. I'd like to know this.

https://www.anthropic.com/news/the-anthropic-economic-index

https://www.anthropic.com/legal/privacy

https://arxiv.org/abs/2412.13678 Appendix D

https://huggingface.co/datasets/Anthropic/EconomicIndex

#Anthropic #Claude