OpenAI launches GDPval to measure AI performance on real-world economic tasks

https://web.brid.gy/r/https://nerds.xyz/2025/09/openai-gdpval/

Anthropic kontratakuje. Nowy model Claude Opus 4.1 ma być mistrzem w programowaniu

Anthropic, jeden z głównych rywali OpenAI, zaprezentował swój najnowszy model sztucznej inteligencji – Claude Opus 4.1.

Nowa wersja, udostępniona zaledwie trzy miesiące po debiucie serii Claude 4, skupia się na ulepszeniu zdolności w zakresie programowania, rozumowania i wykonywania złożonych, wieloetapowych zadań, tzw. zadań agentowych.

Głównym atutem Claude Opus 4.1 ma być jego precyzja w zadaniach związanych z inżynierią oprogramowania, która według wewnętrznych testów Anthropic osiągnęła poziom 74,5%. Jest to zauważalny postęp w porównaniu do poprzednich modeli firmy, w tym Claude Opus 4 (72,5%) oraz Claude Sonnet 3.7 (62,3%). Nowy model ma być również znacznie lepszy w „dogłębnej analizie danych i śledzeniu szczegółów”.

Claude Opus 4.1 jest dostępny od dzisiaj dla klientów Anthropic, w usłudze Claude Code oraz za pośrednictwem API. Model został również udostępniony na platformach chmurowych kluczowych partnerów: Amazon Bedrock oraz Vertex AI od Google Cloud.

Anthropic zapowiedziało, że to nie koniec nowości i w „nadchodzących tygodniach” planuje wydać „znacznie większe ulepszenia” swoich modeli. Ta premiera to kolejny element zaciętej rywalizacji na rynku AI, zwłaszcza w kontekście spodziewanych w tym tygodniu ogłoszeń ze strony głównego konkurenta, firmy OpenAI.

Tresura „złego” AI kluczem do bezpieczeństwa? Ciekawa technika badaczy z Anthropic

#AI #AmazonBedrock #Anthropic #Claude #ClaudeOpus41 #GoogleVertexAI #inżynieriaOprogramowania #LLM #news #programowanie #sztucznaInteligencja