fly51fly (@fly51fly)
온디바이스 검색증강생성(RAG)을 위한 통합 모델과 문서 표현 방법을 제안한 연구입니다. 기기 내에서 더 효율적으로 문서를 검색·활용해 RAG를 구현하는 방향으로, 엣지 AI와 프라이버시 측면에서 중요한 기술입니다.
fly51fly (@fly51fly)
온디바이스 검색증강생성(RAG)을 위한 통합 모델과 문서 표현 방법을 제안한 연구입니다. 기기 내에서 더 효율적으로 문서를 검색·활용해 RAG를 구현하는 방향으로, 엣지 AI와 프라이버시 측면에서 중요한 기술입니다.
田中義弘 | taziku CEO / AI × Creative (@taziku_co)
Parlor가 브라우저 기반 VAD, 디바이스 내 LLM과 TTS, 시각 입력까지 지원하는 로컬 우선 음성 AI 구조를 소개했다. Gemma 4 E2B와 Kokoro TTS를 사용하며 약 3GB로 동작하고 클라우드 의존성이 없어, 온디바이스 AI 애플리케이션의 유망한 사례로 보인다.
田中義弘 | taziku CEO / AI × Creative (@taziku_co)
Google의 Gemma 4가 iPhone 17 Pro에서 완전 온디바이스로 동작하며, 이미지 이해와 추론, 필요 시 E2B 연동까지 수행한다고 소개됐다. MLX 최적화로 약 40 tok/s 성능을 내며, 네트워크나 클라우드 없이 실행되는 점이 핵심이다.
Github Awesome (@GithubAwesome)
Apple Silicon Mac에 내장된 30억 파라미터 온디바이스 언어모델을 활용하는 apfel 프로젝트가 소개됐다. Apple의 Foundation Model을 CLI와 OpenAI 호환 HTTP 서버로 감싸 로컬에서 쉽게 사용할 수 있게 해준다.

If you're on Apple Silicon, your Mac already has a 3-billion parameter language model sitting on disk. Apple locked it behind Siri. apfel unlocks it. It's a native Swift project that wraps Apple's on-device Foundation Model into a CLI tool and an OpenAI-compatible HTTP server. No
Got Gemma 4 running in one of my iOS apps.
Using the LocalLLMClient SPM package (https://github.com/tattn/LocalLLMClient) to integrate it quickly.
More updates later…
Alex Cheema (@alexocheema)
NVIDIA와 Apple의 협업을 암시하는 게시물로, 로컬 AI 분야에서 큰 전환점이 될 수 있는 발표가 예고됐다. 구체적인 내용은 없지만 두 기업의 결합은 온디바이스 AI, 엣지 컴퓨팅, 로컬 추론 생태계에 중요한 영향을 줄 가능성이 있다.
GLM-OCR runs locally on 2GB VRAM, handles tables and math equations, and hits 260 tok/s on a Mac.
No cloud API. No subscription. Just your machine.
Local models are getting better and smaller faster than anyone expected.
Ars Technica (@arstechnica)
Discord 사태 이후 등장한 연령 확인(age-check) 기술은 개인정보 보호를 위해 사용자 장치에서 로컬(오프라인)으로 동작한다고 주장합니다. 해당 기사는 이 기술의 작동 원리, 프라이버시 보호 주장(데이터 비전송·로컬 추론), 정확도 및 보안성 검증 여부를 점검하며 실제로 사생활을 지키는지 평가합니다.
Mark Vassilevskiy (@MarkKnd)
Perplexity가 'Personal Computer'를 발표했습니다. 항상 켜져 있는 로컬-클라우드 병합형 솔루션으로 Perplexity Computer와 연동되어 24/7 동작하며 개인 파일, 앱, 세션 전반에서 작동합니다. 지속 실행되는 Mac mini 기반으로 개인화·보안·연속성(세션 유지)을 강조한 개인용 AI 컴퓨팅 제품입니다.