#openai #o3 #o4 #ai #coding #chatgpt #prompt #ai #genai #generativeai… | Alessio Pomaro
🧠 #OpenAI ha presentato i nuovi modelli #o3 e #o4-mini (con avanzamenti della fase di reasoning), e ha lanciato Codex CLI (un #AI Agent open-source).
✨ Ho provato o3 in diversi task: #coding, generazione di testo, analisi dei dati, ricerca online, logica, matematica, istruzioni complesse, analisi delle immagini, e in un sistema multi-agent via API.
👉 Sul coding, è performante: ho realizzato un'applicazione locale (Python) con interfaccia grafica che converte un gruppo di immagini in tutti i formati, con resize e gestione della qualità, funzionante alla prima esecuzione.
👉 Fantastici la ricerca online e code interpreter in fase di reasoning, perché sono dinamici in base al flusso di ragionamento.
👉 Ho provato anche CodexCLI, un agente AI per il terminale che consente di scrivere codice, navigare file, interpretare immagini e interagire con il computer in modo multimodale e controllato. Nel test, entro in una directory e faccio sintetizzare al modello un PDF locale. Una funzionalità davvero interessante.
🚀 o3 è il modello più potente, dedicato a compiti complessi come coding, matematica, e ragionamento visivo. o4-mini, invece, offre prestazioni sorprendentemente elevate in rapporto a dimensioni e costi, risultando ideale per usi ad alto volume di richieste.
⚙️ Entrambi possono usare l’intera suite di strumenti di #ChatGPT: ricerca web, code interpreter, generazione e modifica immagini, function calling e tool personalizzati. Per la prima volta, ragionano anche sulle immagini: le usano come parte integrante della catena di pensiero, sbloccando nuove modalità di problem solving.
📈 Le performance: o4-mini raggiunge il 93,4% di accuratezza su AIME 2024 e 2719 ELO su Codeforces. o3 ottiene 83,3% su GPQA (domande da PhD), 86,8% su MathVista, 78,6% su CharXiv, e domina nei task di software engineering, superando ampiamente i predecessori.
🔒La sicurezza è stata potenziata con nuovi sistemi di rifiuto delle richieste, rilevamento di #prompt rischiosi e test rigorosi: entrambi i modelli restano sotto le soglie critiche su tutti i fronti (biochimica, cybersecurity, auto-miglioramento AI).
🔗 Il post: https://lnkd.in/deVB8aGf
🔗 Codex CLI: https://lnkd.in/d5gMt3YC
___
✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://lnkd.in/dN-bwBrV
#AI #GenAI #GenerativeAI #IntelligenzaArtificiale #LLM