GLM-OCR runs locally on 2GB VRAM, handles tables and math equations, and hits 260 tok/s on a Mac.
No cloud API. No subscription. Just your machine.
Local models are getting better and smaller faster than anyone expected.
GLM-OCR runs locally on 2GB VRAM, handles tables and math equations, and hits 260 tok/s on a Mac.
No cloud API. No subscription. Just your machine.
Local models are getting better and smaller faster than anyone expected.
Ars Technica (@arstechnica)
Discord 사태 이후 등장한 연령 확인(age-check) 기술은 개인정보 보호를 위해 사용자 장치에서 로컬(오프라인)으로 동작한다고 주장합니다. 해당 기사는 이 기술의 작동 원리, 프라이버시 보호 주장(데이터 비전송·로컬 추론), 정확도 및 보안성 검증 여부를 점검하며 실제로 사생활을 지키는지 평가합니다.
Mark Vassilevskiy (@MarkKnd)
Perplexity가 'Personal Computer'를 발표했습니다. 항상 켜져 있는 로컬-클라우드 병합형 솔루션으로 Perplexity Computer와 연동되어 24/7 동작하며 개인 파일, 앱, 세션 전반에서 작동합니다. 지속 실행되는 Mac mini 기반으로 개인화·보안·연속성(세션 유지)을 강조한 개인용 AI 컴퓨팅 제품입니다.
[MLC-LLM으로 iOS에서 로컬 LLM(Gemma 3) 실행하기
MLC-LLM을 활용하여 iOS 기기에서 Gemma 3 모델을 로컬로 실행하는 방법과 성능 지표를 정리한 포스팅. Metal API 가속을 통해 모바일 기기에서도 지연 시간이 거의 없는 추론 환경 구축이 가능하며, Gemma 3 1B 모델은 약 1.14GB의 VRAM을 점유한다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
작성자는 Apple의 'Local AI'를 언급하며 'lawful good Wizard'라는 표현으로 해당 로컬(on-device) AI 기능이나 도구가 곧 활동 준비 중임을 암시합니다. 공식 발표나 세부 내용은 없지만 Apple 관련 로컬 AI 기술/제품에 대한 관심 또는 초기 테스트·시연 가능성을 시사합니다.
Google for Developers (@googledevs)
TensorFlow 2.21이 출시되었습니다. LiteRT가 정식 프로덕션으로 승격되어 온디바이스 추론용 범용 프레임워크 역할을 하며, GPU에서 기존 TFLite 대비 1.4배 빠른 성능과 새로운 NPU 가속을 제공한다고 공지되었습니다. 또한 저정밀도 지원이 추가되어 온디바이스 성능 최적화가 강화되었습니다.

TensorFlow 2.21 has arrived. ⚙️ LiteRT has officially graduated to production, serving as the universal on-device inference framework for the AI era. What’s new: ⚡️ LiteRT Production: 1.4x faster GPU performance vs. TFLite + new NPU acceleration 💎 Lower Precision: Added
Simon Willison (@simonw)
Qwen 3.5를 아이폰에서 실행할 수 있는 앱이 소개되었습니다. 4B 모델은 앱으로 다운로드할 경우 용량이 약 3.06GB이며, 이를 통해 온디바이스에서 Qwen 3.5를 구동할 수 있다는 내용입니다.
Paul Couvert (@itsPaulAi)
Qwen 3.5 등 오픈소스 모델을 스마트폰에서 실행할 수 있다는 안내입니다. PocketPal 앱을 통해 무료이자 100% 오픈소스 방식으로 iOS·Android에서 오프라인 채팅이 가능하며 개인 데이터를 공유하지 않고 사용할 수 있다고 설명합니다.

Friendly reminder that you can run Qwen 3.5 (and other open-source models) on your phone And the app (PocketPal) is: - Completely free - 100% open-source - Available on iOS and Android You can then chat even if you're offline or just don't want to share personal data. Links