merve (@mervenoyann)

Gemma 4에 MTP drafter가 적용되어 speculative decoding으로 기존 대비 최대 3배까지 tokens/sec 속도가 향상됐다. 추론 결과는 동일하면서 훨씬 빨라졌고, transformers, MLX, vLLM에서 출시 첫날부터 지원되며 A2.0 라이선스로 제공된다.

https://x.com/mervenoyann/status/2051702372339003841

#gemma #speculativedecoding #vllm #mlx #transformers

merve (@mervenoyann) on X

Gemma 4 just got a massive speed-up with MTP drafters ⚡️ > speculative decoding (up to 3x tokens/sec improvement compared to normal Gemma-4 🔥) > identical reasoning, just faster > day-0 support in transformers, MLX, vLLM > A2.0 licensed 🤗

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX HN Local Image 프로젝트가 업데이트되었으며, 이제 uvx로 별도 다운로드 없이 실행할 수 있습니다. 또한 z-image-turbo와 flux2-klein 4B/9B의 간단한 비교가 추가되어 로컬 이미지 생성/실험 워크플로우가 개선되었습니다. 64GB 머신에서 실행 권장.

https://x.com/ivanfioravanti/status/2051656156788248735

#mlx #localimage #imagegeneration #opensource #ai

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX HN Local Image project updated. You can now run it using uvx without downloading anything and I added a quick compare between z-image-turbo and flux2-klein 4B and 9B. A video below from M5 Max using ghostty. Note: run this on a 64GB machine, we can try to squeeze this win

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX 기반 DeepSeek 4 Flash의 최대 32k 컨텍스트 벤치마크 초기 결과를 공유했다. mlx-lm PR 진행 상황을 점검하는 내용이며, Apple M3 하드웨어에서 4bit 추론이 빠르고 긴 컨텍스트에서도 성능이 잘 유지된다고 언급했다. MLX/Apple 실환경 성능 참고용으로 유용한 업데이트다.

https://x.com/ivanfioravanti/status/2050488746588446849

#mlx #deepseek #benchmark #llm #apple

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Another preliminary MLX DeepSeek 4 Flash context benchmark (up to 32k context), to check the status of the PR on mlx-lm now that @angeloskath is on it 💪 Things are progressing well as you can see below. 4bit is pretty fast and sustained across contexts. Hardware: Apple M3

X (formerly Twitter)

MR BIZARRO (@AIBizarrothe)

Apple Silicon에서 동작하는 무료 로컬 비디오+오디오 생성기 Phosphene를 소개한다. MLX 위에서 LTX 2.3을 실행하며, Claude의 도움으로 개발되었다. 원클릭 설치는 Pinokio로 가능하고, 현재 일부 버그가 있어 PR 참여를 환영한다.

https://x.com/AIBizarrothe/status/2049858499824206114

#videogeneration #audiogeneration #applesilicon #mlx #opensource

MR BIZARRO (@AIBizarrothe) on X

Happy to share something I've been building: Phosphene A free local video+audio generator for Apple Silicon, running LTX 2.3 in MLX. Built with a lot of help from Claude. Mostly works. There are bugs. PRs welcome. One-click install via Pinokio. 🧵

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX 기반 컨텍스트 벤치마크 결과를 공유하며, M5 Max와 M3 Ultra를 비교한 뒤 대용량 배치에서는 M3 Ultra가 우세하지만 M5 Max 칩의 성능도 인상적이라고 평가했습니다. @kernelpool의 제안으로 디코드/프리필 속도가 크게 향상됐다고 언급했습니다.

https://x.com/ivanfioravanti/status/2049515631557398607

#mlx #benchmark #apple #llm #mac

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX Context Benchmark on Ling-2.6-flash-mlx-4bit 🥇 M5 Max 🥈 M3 Ultra Only in large batches M3 Ultra wins. Incredible power in M5 Max chip! @kernelpool suggestion brought decode/prefill speed to the next level! Time to test this coding!

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX Ling-2.6-Flash의 마지막 버그가 수정되어 OpenCode와 pi mono에서 정상 동작하게 되었다는 업데이트다. M5 Max에서 5bit 양자화로 구동한 영상도 공유했으며, pi mono는 매우 빠르고 OpenCode는 더 느리지만 상세한 결과를 제공한다고 언급했다.

https://x.com/ivanfioravanti/status/2049593273941893297

#mlx #llm #quantization #opencode #aimodel

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX Ling-2.6-Flash last bug fixed! I was going crazy when using it with OpenCode and pi mono, but now it works! 🚀 Look at this video on M5 Max using 5bit quantization. 🥇 pi mono --> ULTRA FAST! 🥈 OpenCode --> slower but detailed

X (formerly Twitter)

田中義弘 | taziku CEO / AI × Creative (@taziku_co)

Gemma 4 27B와 MLX를 활용하면 맥에서 인터넷 연결 없이 채팅, 구현, 게임 생성까지 로컬로 수행할 수 있다는 데모가 소개됐다. 크롬 다이노 스타일 점프 게임을 오프라인 환경에서 빌드한 사례를 보여주며, 향후 오픈소스화 계획도 언급했다.

https://x.com/taziku_co/status/2049423172752330869

#gemma #mlx #opensource #localai #mac

田中義弘 | taziku CEO / AI × Creative (@taziku_co) on X

オフラインでバイブコードする時代が来ている。 Gemma 4 27B+MLXで、Mac上だけでチャット→実装→ゲーム生成まで完結。デモではChrome Dino風のジャンプゲームをネットなしで構築。 すべてをオープンソース化予定とのこと。 リポジトリは🧵

X (formerly Twitter)

Ammaar Reshi (@ammaar)

Gemma 4 기반의 온디바이스 바이브 코딩 앱을 Mac에서 MLX로 구현했고, 인터넷 없이 모델을 선택해 채팅하거나 빌드할 수 있다. Chrome Dino 게임을 오프라인으로 생성하는 데모도 포함하며 오픈소스로 공개했다.

https://x.com/ammaar/status/2049169134429073471

#gemma4 #mlx #ondevice #vibecoding #opensource

Ammaar Reshi (@ammaar) on X

Vibe code without internet 🚀 I built a vibe coding app powered by Gemma 4, running fully on-device on Mac with MLX. Pick your model, then chat or build with it. Watch it build the Chrome Dino game offline using Gemma 4 27b. Open sourcing all of it below👇

X (formerly Twitter)

Simon Willison (@simonw)

Microsoft의 MIT 라이선스 음성 인식 모델 VibeVoice가 소개되었다. Whisper처럼 화자 분리를 지원하며, M5 MacBook에서 MLX 4bit 변환본을 구동한 실사용 후기와 함께 약 1시간 오디오를 9분 내에 전사할 수 있었다는 성능이 언급되었다.

https://x.com/simonw/status/2048912086307377252

#microsoft #vibevoice #speechtotext #whisper #mlx

Simon Willison (@simonw) on X

Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my notes on running the 5.71GB 4bit MLX conversion on an M5 MacBook, using about 60GB of RAM at peak and transcribing 1hr of audio in ~9 mins https://t.co/lyu5rtXwPQ

X (formerly Twitter)

Simon Willison (@simonw)

Microsoft의 MIT 라이선스 음성 인식 모델 VibeVoice를 소개하며, Whisper처럼 동작하되 화자 분리 기능이 포함된다고 설명한다. 5.71GB 4bit MLX 변환본을 M5 MacBook에서 실행한 후기와 함께, 약 60GB RAM 사용, 1시간 오디오를 약 9분 만에 전사했다는 성능 정보를 공유한다.

https://x.com/simonw/status/2048912086307377252

#microsoft #speechtotext #whisper #diarization #mlx

Simon Willison (@simonw) on X

Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my notes on running the 5.71GB 4bit MLX conversion on an M5 MacBook, using about 60GB of RAM at peak and transcribing 1hr of audio in ~9 mins https://t.co/lyu5rtXwPQ

X (formerly Twitter)