AISatoshi (@AiXsatoshi)

M5 Max와 M3 Ultra의 로컬 LLM 성능 비교 벤치마크. Gemma 34B 프롬프트 처리: M5 Max 4,468 T/s, M3 Ultra 2,959 T/s(약 1.5배). 생성 속도: 35B급 Dense 모델에서 M5 Max 88.5 T/s > M3 Ultra 69 T/s, 반면 120B급 MoE 모델에서는 M3 Ultra 82 T/s > M5 Max 65 T/s. 로컬 LLM 운용 시 칩/시스템별 성능 차이가 뚜렷합니다.

https://x.com/AiXsatoshi/status/2031276979908206717

#m5max #m3ultra #localllm #benchmark

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

M5MAXつええ M5 Max vs M3 Ultra:ローカルLLM性能 ■プロンプト処理 (Gemma 34B) M5 Max: 4,468 T/s M3 Ultra: 2,959 T/s の1.5倍 ■生成速度 ・35BクラスのDenseモデル M5 Max 88.5 T/s > M3 Ultra 69 T/s ・120BクラスのMoEモデル M3 Ultra 82 T/s > M5 Max 65 T/s

X (formerly Twitter)
Apple's 512GB Mac Studio vanishes, a quiet acknowledgment of the RAM shortage https://arstechni.ca/863B #Applesilicon #ramshortage #MacStudio #m3ultra #Apple #apple #m4max #Tech
Apple's 512GB Mac Studio vanishes, a quiet acknowledgment of the RAM shortage

Announcements this week were mostly business as usual, but Apple isn't immune.

Ars Technica
Speicherknappheit beim M3 Ultra: Apple deckelt Mac Studio bei 256 GB statt 512 GB RAM

Apple bietet den Mac Studio mit M3 Ultra nicht länger mit maximal 512 GB RAM an. Das System ist jetzt bei 256 GB gedeckelt, die mehr kosten.

ComputerBase
L'option 512Go de RAM disparait du Mac Studio M3 Ultra : la crise de la RAM touche aussi Apple
https://mac4ever.com/195015
#Mac4Ever #M3Ultra #MacStudio

Ivan Fioravanti ᯅ (@ivanfioravanti)

exolabs의 최신 버전에서 벤치마크 테스트를 진행하며, /bench/chat/completions 엔드포인트가 호출 간 캐시를 비활성화하는 기능을 제공함을 발견했다고 보고. 캐시 비활성화로 일관된 성능 측정이 가능해 M3 Ultra 성능 테스트에 적합하다는 점을 강조.

https://x.com/ivanfioravanti/status/2028047012109734067

#exolabs #api #benchmark #cache #m3ultra

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Doing some benchmark testing on @exolabs latest version is great! I've found the /bench/chat/completions endpoint that disables cache between calls! Exactly what I need! Let's push these M3 Ultras!

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

EXO MLX Kimi K2.5의 컨텍스트 벤치마크를 두 대의 M3 Ultra(512GB)에서 실행한 결과를 공유. 속도는 엄청 빠르진 않지만 대용량 컨텍스트에서도 안정적인 생성 속도를 유지하며, 테스트는 캐시를 비활성화한 상태로 진행되었고 일반 사용 시에는 OpenCode와 C 조합으로 캐시 활용 시 더 좋은 성능이 나타날 수 있음을 언급.

https://x.com/ivanfioravanti/status/2028094304913092664

#exo #kimi #m3ultra #benchmark #contextwindow

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

EXO MLX Kimi K2.5 context benchmark running on two M3 Ultra 512GB. Not bad! It's not so fast, but it keeps a good generation speed even with large contexts. Keep in mind cache is disabled in these tests, normal usage is quite good with OpenCode & C.

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

exolabs 최신 버전에서 벤치마크 테스트 중에 /bench/chat/completions 엔드포인트를 찾아냄. 이 엔드포인트는 호출 간 캐시를 비활성화해 실제 성능 측정에 적합하며, M3 Ultra 칩을 활용한 성능 테스트에 딱 맞는 기능이라고 평함.

https://x.com/ivanfioravanti/status/2028047012109734067

#exolabs #benchmarking #api #m3ultra

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Doing some benchmark testing on @exolabs latest version is great! I've found the /bench/chat/completions endpoint that disables cache between calls! Exactly what I need! Let's push these M3 Ultras!

X (formerly Twitter)

Alex Cheema (@alexocheema)

Kimi K2.5가 MacBook Pro와 4대의 M3 Ultra Mac Studio에서 구동된 사례 공유. ExoLabs(@exolabs)가 이기종 장치들로 구성된 메시에 분산 추론(distributed inference)을 지원하며, 향후 M5 Pro/Max/Ultra가 나오면 클러스터에 추가해 사용할 수 있다는 안내로 하드웨어-소프트웨어 혼합 클러스터 활용 사례를 소개.

https://x.com/alexocheema/status/2027815923684392973

#distributedinference #exolabs #kimi #m3ultra #macbookpro

Alex Cheema (@alexocheema) on X

Kimi K2.5 on MacBook Pro + 4 x M3 Ultra Mac Studios. @exolabs supports distributed inference on a mesh of heterogeneous devices. When M5 Pro/Max/Ultra lands, you can add it to your cluster.

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

Qwen3.5 벤치마크 테스트를 업데이트 중이라는 공지입니다. @N8Programs의 피드백과 @awnihannun의 도움을 받아 진행 중이며, 가상환경(venv) 문제로 인해 M3 Ultra에서 Qwen3.5-122B-A10B-4bit가 동일하게 잘못된(느린) 결과를 낸 현상을 발견했고, 현재 테스트를 다시 실행하고 있다고 보고하고 있습니다.

https://x.com/ivanfioravanti/status/2026720413842112687

#qwen #benchmark #m3ultra #quantization #venv

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

I'm updating my Qwen3.5 benchmark tests, after feedback from @N8Programs and help from super @awnihannun Something strange in my venv lead to same (wrong and slow) results on both M3 Ultra for Qwen3.5-122B-A10B-4bit. Tests running now! 🔥

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX와 OpenCode, Qwen3.5-122B-A10B-4bit을 Apple M3 Ultra에서 조합해 제로샷으로 스네이크 게임을 생성한 사례 공유. 생성 과정이 매우 빠르게 재생된 영상이 있고, 프롬프트는 Grok 4.20으로 생성되어 관련 기사에 포함되어 있다고 설명함. 하드웨어·모델·툴 결합으로 실시간 생성 및 게임 응용 가능성을 시사.

https://x.com/ivanfioravanti/status/2026608314360988039

#mlx #opencode #qwen3.5 #m3ultra #grok

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX + OpenCode + Qwen3.5-122B-A10B-4bit on M3 Ultra created a great snake game! Work zero-shot. Video clearly in super fast mode during generation. I generated the prompt using Grok 4.20, it's in the article.

X (formerly Twitter)