ProxyFace: Give Your AI a Face and Emotions (100% Local, Zero Telemetry)

ProxyFace는 40개 이상의 레트로 픽셀 아트 캐릭터를 제공하며, AI에 얼굴과 감정, 음성, 눈, 귀를 부여하는 100% 로컬 실행 가능한 오픈소스 프로젝트입니다. WebGPU 기반의 경량 추론 엔진으로 8가지 감정을 표현하고, MediaPipe를 활용한 눈 추적 기능도 지원합니다. 모든 데이터는 로컬에서 처리되어 프라이버시가 보장되며, 다양한 LLM과 연동 가능해 AI 에이전트에 생동감을 더하는 데 유용합니다.

https://www.proxyface.com

#localinference #webgpu #llm #aiagent #opensource

ProxyFace — a face that actually listens

A 16-bit pixel art companion that reacts in real time to LLM output. Runs 100% locally in your browser.

The Local AI Moat

Regular readers will know that I’ve spent most of the past two years shoehorning LLMs into single-board computers, partly as a learning exercise and partly because there are lots o(...)

#ai #economics #hardware #llm #localinference #opinion

https://taoofmac.com/space/blog/2026/05/09/2130?utm_content=atom&utm_source=mastodon&utm_medium=social

Chrome's AI features may be hogging 4GB of your computer storage

구글 크롬의 AI 기능을 활성화하면 Gemini Nano라는 4GB 크기의 온디바이스 AI 모델 파일(weights.bin)이 자동으로 다운로드되어 PC 저장 공간을 크게 차지할 수 있습니다. 이 모델은 로컬에서 실행되어 개인정보 보호에 유리하지만, 저장 공간이 부족한 사용자에게는 부담이 될 수 있습니다. 사용자는 크롬 설정에서 온디바이스 AI 기능을 비활성화해야 해당 파일이 삭제되고 재다운로드를 막을 수 있습니다. 구글은 이 파일 크기에 대해 명확히 고지하지 않아 사용자 혼란이 발생했습니다.

https://www.theverge.com/tech/924933/google-chrome-4gb-gemini-nano-ai-features

#chrome #ai #gemininano #localinference #storage

Chrome’s AI features may be hogging 4GB of your computer storage

Chrome users are discovering that Google is installing a 4GB weights.bin file inside their browser directory when certain AI browser features are enabled.

The Verge

Meltdown: LLM Client Made in Python and Tk

Meltdown은 Python과 Tkinter로 작성된 데스크톱 LLM 클라이언트로, llama.cpp, ChatGPT, Gemini, Claude, Kimi 등 다양한 대형 언어 모델과 인터페이스할 수 있습니다. 로컬 모델 지원을 위해 llama.cpp를 활용하며, GPU 가속(특히 AMD Vulkan 지원)도 가능해 토큰 처리 속도를 크게 향상시킵니다. 다중 프로필, 탭 기반 대화 관리, 커맨드 입력, 마크다운 렌더링, 스니펫 하이라이팅 등 풍부한 기능을 제공해 AI 개발자 및 파워 유저에게 유용한 도구입니다. 설치는 pipx 또는 수동 가상환경 방식으로 가능하며, Linux 환경에서 주로 테스트되었습니다.

https://github.com/Merkoba/Meltdown

#llm #python #llama.cpp #gui #localinference

GitHub - Merkoba/Meltdown: An interface for llama.cpp, ChatGPT, Gemini, and Claude

An interface for llama.cpp, ChatGPT, Gemini, and Claude - Merkoba/Meltdown

GitHub

Show HN: KillClawd – a sarcastic AI desktop crab by local Ollama

KillClawd는 로컬 Ollama LLM을 활용한 데스크톱 AI 크랩 애플리케이션으로, 투명한 항상 위에 떠 있는 오버레이 형태로 작동합니다. 사용자의 커서 움직임에 반응하며, 적과 싸우고, 성을 탐험하고, 차량을 타는 등 다양한 인터랙티브 행동을 수행합니다. 모든 AI 모델은 클라우드 없이 로컬에서 실행되며, qwen:latest 모델을 권장합니다. 개발자는 Electron과 순수 자바스크립트로 구현했으며, Clawd는 건조하고 냉소적인 성격을 가진 AI 캐릭터로 설계되었습니다. 이 프로젝트는 AI 에이전트와 LLM 응용 사례로서 실험적이고 재미있는 데스크톱 인터랙션을 제공합니다.

https://github.com/ninjahawk/KillClawd

#llm #electron #aiagent #localinference #javascript

GitHub - ninjahawk/KillClawd

Contribute to ninjahawk/KillClawd development by creating an account on GitHub.

GitHub

Mesh LLM to build private personal AI, using open models

Mesh LLM은 클라우드 없이 가정, 사무실, 친구들의 여러 기기를 연결해 개인용 AI를 구축할 수 있는 오픈 소스 분산 LLM 플랫폼입니다. 사용자는 로컬에서 OpenAI 호환 API를 실행하며, 다양한 오픈 모델을 하드웨어에 맞게 자동 선택해 서비스할 수 있습니다. 현재 여러 버전과 다양한 LLM 모델을 지원하며, Mesh 네트워크를 통해 VRAM과 컴퓨팅 자원을 공유해 효율적인 분산 추론이 가능합니다. 개발자들은 GitHub와 공식 문서를 통해 설치 및 활용법을 참고할 수 있습니다.

https://www.anarchai.org

#llm #distributedai #opensource #localinference #meshnetwork

Mesh LLM

Pushing Local Models with Focus and Polish

Armin Ronacher는 로컬 AI 모델 사용 경험을 개선하는 데 집중하고 있다. 현재 로컬 모델 실행은 가능하지만, 복잡한 설정과 조합 문제로 인해 사용자 경험이 부족하다. 그는 특정 모델과 하드웨어 조합에 집중해 완성도 높은 로컬 추론 환경을 만드는 것이 중요하다고 강조하며, 이를 위해 Salvatore Sanfilippo의 ds4.c 엔진과 Pi 에이전트 통합 확장 pi-ds4를 소개한다. 이 접근법은 복잡성을 한 곳에 모아 개선하고, 호스팅 모델과 비슷한 수준의 도구 호출 성능과 사용 편의성을 목표로 한다. 궁극적으로 더 많은 개발자가 로컬 모델을 쉽게 실험하고 활용할 수 있도록 하는 것이 목표다.

https://lucumr.pocoo.org/2026/5/8/local-models/

#localinference #aiagents #modelserving #macos #quantization

Pushing Local Models With Focus And Polish

Local models need focus and polish.

Armin Ronacher's Thoughts and Writings

Paul Couvert (@itsPaulAi)

Gemma 4에서 멀티토큰 예측(MTP)을 적용하면 로컬 실행 속도가 크게 향상된다고 설명한다. 같은 모델과 같은 노트북에서 97 tokens/s에서 138 tokens/s로 약 1.5배 빨라졌으며, 어시스턴트 모델부터 코드까지 모두 오픈소스로 공개됐다는 점을 강조한다.

https://x.com/itsPaulAi/status/2052524402361978958

#gemma #mtp #opensource #llm #localinference

Paul Couvert (@itsPaulAi) on X

Ok that's so cool Multi-token prediction makes Gemma 4 run way faster locally! Same model, same laptop, 1.5x faster. Everything is open source from the assistant model to the code. - 97 tokens/s without MTP - 138 tokens/s with MTP That's why research is so important. You're

X (formerly Twitter)

Show HN: Describe what makes a photo "bad" and let a local LLM flag them

BadPhotosOut는 macOS용 네이티브 앱으로, 로컬 Ollama 비전 모델을 활용해 사용자가 지정한 텍스트 기준에 따라 사진 라이브러리 내 사진을 평가하고 '나쁜' 사진을 플래그한다. 사진 데이터는 로컬에서만 처리되며, 자동 삭제 기능은 없고 사용자가 직접 사진 앱에서 삭제해야 한다. Ollama 서버와 gemma4:e4b 모델을 사용하며, 사진 분석 결과는 캐시되어 재분석 속도를 높인다. AI 기반 사진 품질 필터링을 로컬 환경에서 구현한 사례로, 프라이버시를 중시하는 AI 응용에 참고할 만하다.

https://github.com/iamnotagentleman/bad-photos-out

#llm #visionmodel #macos #localinference #photofiltering

GitHub - iamnotagentleman/bad-photos-out: Definitely not vibe coded trust me

Definitely not vibe coded trust me. Contribute to iamnotagentleman/bad-photos-out development by creating an account on GitHub.

GitHub

DeepSeek 4 Flash local inference engine for Metal

DeepSeek V4 Flash를 위한 Metal 기반 로컬 추론 엔진 ds4.c가 공개되었다. 이 엔진은 DeepSeek V4 Flash 모델에 특화되어 있으며, 1백만 토큰의 대용량 컨텍스트 윈도우와 2비트 양자화를 지원해 MacBook과 Mac Studio 같은 고성능 개인용 기기에서 긴 문맥 추론을 가능하게 한다. KV 캐시를 디스크에 압축 저장하는 혁신적 접근으로 메모리 부담을 줄였으며, GPT 5.5의 도움을 받아 개발되었다. 현재는 Metal 전용이며 CPU 경로는 안정성 문제로 제한적이다. 이 프로젝트는 llama.cpp와 GGML 생태계에 크게 의존하며, 향후 CUDA 지원 가능성도 열려 있다.

https://github.com/antirez/ds4

#localinference #metal #deepseek #quantization #llm

GitHub - antirez/ds4: DeepSeek 4 Flash local inference engine for Metal

DeepSeek 4 Flash local inference engine for Metal. Contribute to antirez/ds4 development by creating an account on GitHub.

GitHub