MLflow로 AI 에이전트 안전성 테스트: GPT vs Gemini 레드팀 실험

MLflow를 활용해 AI 에이전트 안전성을 체계적으로 평가하는 3-모델 레드팀 프레임워크. GPT vs Gemini 실험 결과와 실무 적용 방법을 소개합니다.

https://aisparkup.com/posts/7821

Gemini 2.5 Flash Native Audio Revolutionizes Live Voice Agents

Google introduces Gemini 2.5 Flash Native Audio, enhancing live voice agents with more natural conversations and real-time translation capabilities.

TechLife

Chińskiej ofensywy ciąg dalszy. Baidu ERNIE 4.5 pokonuje GPT-5 i Gemini w analizie obrazu i wideo

Zaledwie wczoraj informowaliśmy o chińskim modelu Kimi K2, który rzucił wyzwanie liderom z USA. Dziś do gry wchodzi waga ciężka.

Technologiczny gigant Baidu zaprezentował model ERNIE-4.5-VL-28B-A3B-Thinking, który w kluczowych benchmarkach multimodalnych wyprzedza zarówno GPT-5, jak i Gemini 2.5.

Mistrz wykresów i schematów

O ile Kimi K2 skupiał się na rozumowaniu, nowy ERNIE 4.5 to specjalista od „patrzenia”. Jest to model multimodalny, zaprojektowany specjalnie do pracy z trudnymi danymi biznesowymi: schematami inżynieryjnymi, nagraniami z fabryk czy skanami medycznymi.

Wyniki w benchmarkach są imponujące. W teście ChartQA (analiza wykresów) ERNIE uzyskał 87.1 pkt, deklasując Gemini 2.5 Pro (76.3) i GPT-5-High (78.2). Wygrał również w teście matematycznym MathVista (82.5 vs 82.3 u Gemini i 81.3 u GPT-5).

Widzi, rozumie i… klika

To, co wyróżnia ten model, to podejście „agentowe”. ERNIE nie tylko opisuje obrazek, ale potrafi działać:

  • Rozumie schematy: potrafi rozwiązać diagram obwodu mostkowego, stosując prawa Ohma i Kirchhoffa.
  • Generuje dane: zapytany o ludzi w garniturach na zdjęciu, może zwrócić ich dokładne współrzędne w formacie JSON – idealne do systemów bezpieczeństwa czy inspekcji wizualnej.
  • Używa narzędzi: jeśli tekst na zdjęciu jest za mały, model autonomicznie „przybliża” obraz, by go odczytać.

Potężny, ale wymagający

Baidu zastosowało architekturę Mixture-of-Experts (MoE). Choć model jest potężny, podczas pracy aktywuje zaledwie 3 miliardy parametrów, co obniża koszty operacyjne (tzw. inferencję).

Jest jednak haczyk sprzętowy. Aby wdrożyć to rozwiązanie we własnej firmie (single-card deployment), potrzebujesz karty graficznej z aż 80 GB pamięci VRAM. Nie jest to więc narzędzie do domowych eksperymentów, ale dla firm posiadających infrastrukturę AI. Na osłodę: Baidu udostępnia model na licencji Apache 2.0, co pozwala na jego komercyjne wykorzystanie.

Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny

#aiSi #analizaObrazu #baidu #benchmark #chiny #ernie45 #gemini25 #gpt5 #news #sztucznaInteligencja

Gemini Live uczy się aktorstwa. Możesz kazać mu mówić szybciej, wolniej albo z akcentem kowboja

Rozmowy z asystentem AI stają się coraz bardziej naturalne, a teraz także… teatralne.

Google wdraża właśnie aktualizację dla Gemini Live na Androida i iOS, która czyni asystenta znacznie bardziej „adaptacyjnym i ekspresyjnym”.

Dzięki nowym modelom AI znacznie lepiej rozumie niuanse ludzkiej mowy i potrafi dynamicznie dostosować swój styl wypowiedzi.

„Mów szybciej!”

Praktyczną nowością jest kontrola tempa. Możesz teraz powiedzieć do Gemini: „Mów szybciej”, jeśli chcesz błyskawicznego streszczenia tematu, albo „Mów wolniej”, co może być nieocenione np. podczas nauki języków obcych.

AI z akcentem

Google dodało też element zabawy. Gemini Live potrafi teraz naśladować różne akcenty i style mowy na życzenie. Google podaje przykłady:

  • Możesz poprosić o przepis na niedzielną pieczeń mówiony z brytyjskim akcentem Cockney.
  • Albo przeprowadzić burzę mózgów na temat imprezy, rozmawiając z AI udającym kowboja.
  • Lub poprosić o lekcję historii o Rzymie z perspektywy (i głosem) samego Juliusza Cezara.

Te zmiany stylu obowiązują przez czas trwania danej rozmowy. Aktualizacja jest już udostępniana użytkownikom na Androidzie i iOS. Uwaga: funkcje te (zwłaszcza te dotyczące konkretnych akcentów i stylów mówienia) są wdrażane przede wszystkim dla języka angielskiego. W języku polskim ich dostępność może być na razie ograniczona. Niemniej biorąc pod uwagę, że dziś Gemini Live może w Polsce, po polsku mówić różnymi głosami, kwestia dodania stosownych akcentów (wyobraźcie sobie Gemini gadające akcentem z Podlasia) również dla języka polskiego wydaje się prawdopodobna.

Gemini recenzuje ChatGPT: „To skorumpowany, sfabrykowany bałagan”

#aiSi #aktualizacja #android #asystentGlosowy #gemini25 #geminiLive #google #ios #news

Apple udostępnia zestaw danych Pico-Banana-400K do trenowania modeli AI do edycji obrazów

Apple opublikowało nowy zestaw danych badawczych Pico-Banana-400K, zawierający 400 000 obrazów przeznaczonych do treningu modeli AI do edycji zdjęć.

Co ciekawe, dane zostały wygenerowane przy użyciu modeli Google Gemini-2.5.

Zbiór ma licencję badawczą (non-commercial) – można go używać wyłącznie do celów naukowych i rozwojowych. Celem projektu było stworzenie otwartego, wysokiej jakości zestawu danych, który pozwoli naukowcom rozwijać i testować modele AI do edycji zdjęć sterowane poleceniami tekstowymi.

Pico-Banana-400K obejmuje różne typy edycji, m.in. zmiany oświetlenia, pogody, pozycji obiektów, stylizacji postaci czy kadrowania. Dane powstały poprzez współpracę modeli Nano-Banana (Google) i Gemini-2.5-Pro, które generowały i weryfikowały jakość obrazów.

Apple liczy, że Pico-Banana-400K stanie się podstawą do szkolenia przyszłych modeli AI w dziedzinie edycji obrazu.

Więcej szczegółów w tym artykule.

Badanie znajdziecie na arXiv, a zbiór danych jest swobodnie dostępny na GitHub.

#AI #Apple #Apple2025 #AppleResearch #datasetAI #edycjaObrazów #Gemini25 #GoogleAI #PicoBanana400K #sztucznaInteligencja #treningModeliAI #uczenieMaszynowe

Google's latest AI breakthrough enables direct software interaction without APIs 🤖 Experience how Gemini 2.5 navigates web interfaces, fills forms, and handles real-world tasks just like a human would ⚡️ Read more about this groundbreaking development and its safety features.

#Gemini25 #GoogleAI #ArtificialIntelligence #TechNews #AIautomation

https://true-tech.net/google-unveils-gemini-2-5/

Google launches Gemini 2.5: AI that interacts directly with software interfaces

Google launches the Gemini 2.5 computer use model allowing AI to work directly with software interfaces safely and efficiently. Learn features, safety, and availability.

TrueTech Technology Magazine

🚀 Esplora il fascino digitale con Gemini 2.5 - il controllo da web e Android è solo l'inizio! #Gemini25 #InnovazioneDigitale

🔗 https://www.tomshw.it/hardware/gemini-25-debutta-con-controllo-web-e-android-2025-10-08

Gemini 2.5 debutta con controllo web e Android

Google presenta l'anteprima del modello Gemini 2.5 Computer Use per sviluppatori, alla base di Project Mariner e funzionalità agentiche di AI Mode.

Tom's Hardware

Google introduces Gemini 2.5 Computer Use model to automate web and mobile interfaces

https://web.brid.gy/r/https://nerds.xyz/2025/10/gemini-25-computer-use-model/

Google Search AI Mode now rolling out in Malaysia, powered by Gemini 2.5 - SoyaCincau

Google announces the arrival of AI Mode in Malaysia. Powered by Gemini 2.5, AI Mode can help answer complex queries that normally require multiple searches.

SoyaCincau