Mastodawn

Zach (@Zach16976347)

GDPval 기준으로 AI가 개별 작업 수준에서는 이미 많은 영역에서 인간보다 낫다는 주장입니다. 다만 실제 직무는 단순한 작업들의 합이 아니라 협업, 맥락 이해, 책임 분담까지 포함하므로 ‘작업 성능=직무 대체’로 보긴 어렵다는 점을 강조합니다.

https://x.com/Zach16976347/status/2055958271740006565

#ai #gdpval #jobs #automation #llm

Zach (@Zach16976347) on X

@kimmonismus GDPval already proves AI is better at most individual tasks. The problem is that jobs aren’t just a bunch of tasks.

X (formerly Twitter)

AI Daily Post Jan 6

New research reshapes the AI Index: GPT‑5.2 outperforms human pros on 70.9% of tasks, from Notion note‑taking to Shopify inventory. The study highlights GDPval as a fresh benchmark for knowledge work productivity. Dive into the numbers and see why open‑source tools matter in the next AI leap. #GPT52 #OpenAI #GDPval #knowledgework

🔗 https://aidailypost.com/news/analysis-overhauls-ai-index-gpt-52-beats-professionals-709-tasks

Zdroják Dec 12

OpenAI představila GPT-5.2, novou generaci svého nejvýkonnějšího modelu. GPT-5.2 je navržený pro náročné profesionální úkoly, zlepšuje práci s dlouhým kontextem a zvládá složitější projekty napříč textem, kódem i multimédii.

Co je nového?

Výrazně vyšší výkon v komplexních úkolech, jako je tvorba tabulek, prezentací, analýz a práce s obrázky.

Rekordní […]

https://zdrojak.cz/zpravicky/openai-uvadi-gpt-5-2/

AI Sparkup Dec 12

GPT-5.2 출시: 전문가 능가하는 첫 AI, 11배 빠르고 비용은 1%

OpenAI GPT-5.2 출시. 44개 직업에서 전문가 수준 능가, 11배 빠르고 비용 1%. 환각 30% 감소, 긴 문맥·비전 능력 획기적 개선.

https://aisparkup.com/posts/7404

AI Sparkup Oct 11, 2025

AI가 전문가 업무 40% 대체? 헤드라인이 놓친 결정적 사실

GPT-5가 전문가 업무의 40%를 수행한다는 벤치마크 결과, 하지만 그 이면에 숨겨진 인간의 역할과 AI 시대 새로운 업무 방식인 할당 경제를 알아봅니다.

https://aisparkup.com/posts/5472

AI Sparkup Oct 6, 2025

AI 에이전트가 7시간짜리 전문가 업무를 혼자 처리하는 시대가 왔다

OpenAI의 GDPval 테스트에서 AI가 14년 경력 전문가의 실무 과제를 거의 동등한 수준으로 수행했습니다. Claude Sonnet 4.5의 학술 논문 재현 사례와 함께 AI 에이전트의 실제 업무 능력과 현명한 활용 전략을 소개합니다.

https://aisparkup.com/posts/5308

The News Lens Oct 2, 2025

44種職業人工智慧對決人類專家，誰的工作成果更好？

精選轉載 2025-10-02 12:00:00 CSTOpenAI 發表 GDPval 基準測試，透過盲評顯示頂尖 AI 在過半數專業任務中，產出已能匹敵或超越人類專家。此結果凸顯「駕馭 AI」正成為關鍵新職能，其重要性或將超越傳統領域知識。
https://www.thenewslens.com/article/259273
#Claude #OpenAI #Gemini #人機協作 #ChatGPT #科技 #AI #人工智慧 #GDPval #AI素養

44種職業人工智慧對決人類專家，誰的工作成果更好？ - TNL The News Lens 關鍵評論網

OpenAI 發表 GDPval 基準測試，透過盲評顯示頂尖 AI 在過半數專業任務中，產出已能匹敵或超越人類專家。此結果凸顯「駕馭 AI」正成為關鍵新職能，其重要性或將超越傳統領域知識。

TNL The News Lens 關鍵評論網

tech news ᳇ eicker.news Sep 26, 2025

#OpenAI released a new #benchmark, #GDPval, to test its #AImodels against #humanprofessionals in various industries. The benchmark, based on nine industries contributing most to the US GDP, tests AI performance in 44 occupations. OpenAI’s GPT-5 model and Anthropic’s Claude Opus 4.1 were found to be approaching the quality of work produced by industry experts. https://techcrunch.com/2025/09/25/openai-says-gpt-5-stacks-up-to-humans-in-a-wide-range-of-jobs/?eicker.news #tech #media #news