CanIRun.ai는 브라우저의 WebGPU로 내 PC·노트북에서 실행 가능한 AI 모델을 추정해 보여주는 웹 도구입니다. 모델별 메모리 요구량·토큰 속도·컨텍스트 길이와 S~F 등급을 제공해 Qwen, Llama, Gemma, Mistral, GPT‑OSS 등 주요 모델의 로컬 실행 가능성을 빠르게 판단하게 해주나, 결과는 추정치이며 MoE·양자화·모바일 인식 등 정확도 개선 요구가 있습니다.
CanIRun.ai는 브라우저의 WebGPU로 내 PC·노트북에서 실행 가능한 AI 모델을 추정해 보여주는 웹 도구입니다. 모델별 메모리 요구량·토큰 속도·컨텍스트 길이와 S~F 등급을 제공해 Qwen, Llama, Gemma, Mistral, GPT‑OSS 등 주요 모델의 로컬 실행 가능성을 빠르게 판단하게 해주나, 결과는 추정치이며 MoE·양자화·모바일 인식 등 정확도 개선 요구가 있습니다.
I am wondering, is the path big AI corps are going with providing models via huge server farms quite opposing capitalism?
Normally costs run down over time (see solar or microchips). LLMs get smaller and suddenly they fit on your device.
I checked OVH cloud for their offerings of cloud models. They all fit on a 64gb strix halo, probably even 32gb ram. The SOTA models still have an edge, but honestly not much.
내가 AI알못이라 내 컴에서 로컬로 돌아갈 수 있는 모델들이 좋은 것들인지 다 한물 지난 것들인지 알 수가 없다...ㅋ
Protect your IP from public AI! 🛡️🧠
Sending corporate data to cloud AI creates a massive security risk. Bring your AI in-house.
Build a 100% sovereign AI search engine using Open WebUI & SearXNG on ServerMO GPU servers.
✅ Zero Logging
✅ Massive VRAM
✅ Secure Docker Setup
Architecture blueprint:
🔗 https://www.servermo.com/howto/self-hosted-perplexity-open-webui-searxng/
金のニワトリ (@gosrum)
Claude Code와 Qwen3.5 계열(Qwen3.5-122B-A10B/27B/35B-A3B) 조합으로 ts-bench를 돌린 결과를 공유한 내용입니다. Claude Code와 조합해도 현실적인 속도로 동작하지만 스코어를 보면 로컬에서 Claude Code를 돌리려면 100B급 이상의 파라미터가 필요해 보인다는 소견을 남겼습니다.
Akshay (@akshay_pachaar)
Claude Code가 로컬 LLM을 백엔드로 사용하도록 지원한다고 안내함. 환경변수 ANTHROPIC_BASE_URL을 로컬 llama.cpp 서버로 지정하면 Claude Code가 모든 요청을 해당 로컬 모델로 라우팅하여 API 비용 없이, 데이터가 머신을 벗어나지 않게 로컬에서 실행 가능하도록 설계되었다.

Run Claude Code using local LLMs for FREE. No API costs. No data leaving your machine. Here's how it works: Claude Code lets you swap its backend via a single env variable. Point `ANTHROPIC_BASE_URL` to a local llama.cpp server, and it'll route all requests to whatever model
AISatoshi (@AiXsatoshi)
M5 Max와 M3 Ultra의 로컬 LLM 성능 비교 벤치마크. Gemma 34B 프롬프트 처리: M5 Max 4,468 T/s, M3 Ultra 2,959 T/s(약 1.5배). 생성 속도: 35B급 Dense 모델에서 M5 Max 88.5 T/s > M3 Ultra 69 T/s, 반면 120B급 MoE 모델에서는 M3 Ultra 82 T/s > M5 Max 65 T/s. 로컬 LLM 운용 시 칩/시스템별 성능 차이가 뚜렷합니다.
Built an autonomous AI pentest agent in <6 hours using Claude Code. even fully local now . Yes it's possible ! 🫣 (The landscape is changing fast. Our cybersecurity reflexes need to evolve just as quickly)
ARIA orchestrates real Kali Linux tools via Kali MCP (nmap, sqlmap, nikto, john), parses outputs, chains actions, and generates a structured report.
I wrote zero code — only the requirements.
Claude generated the architecture, code, tests, and fixes.
Switched from a cloud model to a local RTX 3090 in ~3 hours.
⚠️ Tested only on my isolated lab environment off course !!!
saldra(サルドラ) (@sald_ra)
로컬AI LT 대회 개최 안내: 3월 18일 19:00, 'ローカルLLMに向き合う会' 주최로 A5000 GPU 35대를 무료로 제공해 참가자들이 성과물을 만들어 발표하는 LT 행사를 연다는 공지입니다. 주최는 witness(@i_witnessed_it)와 주식회사 Lumina Logic Minds의 공동 주관입니다.