llama.cpp는 의존성 없는 C/C++ 기반 경량 LLM 추론 엔진으로, Apple Silicon·x86·RISC‑V 최적화, CUDA/HIP/MUSA GPU, Vulkan/SYCL, CPU+GPU 하이브리드, 1.5~8비트 양자화와 Hugging Face GGUF 지원을 제공한다. WebUI·OpenAI 호환 서버·다양한 모델과 언어 바인딩을 갖춘 ggml 개발 플랫폼으로 로컬·클라우드에서 손쉽게 고성능 추론을 구현할 수 있다.

https://github.com/TheTom/llama-cpp-turboquant

#llama #ggml #ai #inference #machinelearning

GitHub - TheTom/llama-cpp-turboquant: LLM inference in C/C++

LLM inference in C/C++. Contribute to TheTom/llama-cpp-turboquant development by creating an account on GitHub.

GitHub

Anemll (@anemll)

MLX에서 Flash-MoE 실험을 더 빠르게 돌리기 위한 오픈소스 툴킷 anemll-flash-mlx 저장소가 공개됐다. dense inference는 MLX에 맡기고, MoE 부분만 최적화해 안정적인 slot-bank, SSD 스트리밍, 토큰별 expert materialization 없이 hit/miss 분리를 구현한다.

https://x.com/anemll/status/2038684375425200360

#mlx #moe #opensource #inference #machinelearning

Anemll (@anemll) on X

anemll-flash-mlx repo is up! Simple toolkit to speed up Flash-MoE experiments on MLX. Let MLX do what it does best - dense inference in memory. We only optimize the MoE part: stable slot-bank + SSD streaming, clean hit/miss separation, no per-token expert materialization.

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX에서 M5 Max 탑재 MacBook Pro와 새로운 dynamic quantization 조합으로 Qwen3.5-35B-A3B-UD-Q2_K_XL를 자동/고성능 모드에서 비교한 결과가 공유되었습니다. 배치 처리 성능 차이가 크게 나타나며, 로컬 AI 추론 최적화 관점에서 흥미로운 실험입니다.

https://x.com/ivanfioravanti/status/2038691932415590403

#mlx #quantization #qwen #inference #macbook

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX: MBP 16" with M5 Max in Automatic vs High Performance mode using new dynamic quantization Qwen3.5-35B-A3B-UD-Q2_K_XL I was not expecting such a difference! 👀 Look at batch processing that amplifies everything. Low Power mode running now, it will take time.

X (formerly Twitter)
#SouthKorean #AIchip startup #Rebellions raised $400 million in a pre-IPO round, bringing its total funding to $850 million and valuation to $2.34 billion. The company, which designs AI chips for #inference, is expanding globally and recently launched two new #AIinfrastructure platforms. https://techcrunch.com/2026/03/30/ai-chip-startup-rebellions-raises-400-million-at-2-3b-valuation-in-pre-ipo-round/?Pirates.BZ #Pirates #Tech #Startup #News
AI chip startup Rebellions raises $400 million at $2.3B valuation in pre-IPO round | TechCrunch

The startup, which is planning to go public later this year, designs chips specifically for AI inference, another challenger to Nvidia's dominance.

TechCrunch

After A LOT of studying BLAS internals, my PR to the gemm crate is finally open: it introduces mixed-precision BF16 matmuls (optimal for use cases like small models doing autoregressive decoding on CPU)

https://github.com/sarah-quinones/gemm/pull/40

#programming #rust #ai #inference #deeplearning #qwen #asr #opensource #rustlang

Add BF16 GEMM support (mixed precision) by gicrisf · Pull Request #40 · sarah-quinones/gemm

Summary This PR adds support for BF16 (bfloat16) matrix multiplication. The implementation stores inputs/outputs as BF16 but performs computation in F32, converting during the packing phase. This a...

GitHub

vitrupo (@vitrupo)

제프 딘은 AI 에이전트가 인간보다 50배 빠르게 동작할 수 있지만, 기존 도구는 인간 속도에 맞춰 설계돼 있어 전체 성능 향상은 2~3배에 그친다고 지적했다. 모델 자체보다 도구와 워크플로를 재설계해야 한다는 점을 강조한 발언이다.

https://x.com/vitrupo/status/2038230613912887757

#aiagents #tooling #inference #productivity #aimodels

vitrupo (@vitrupo) on X

Jeff Dean says we’re going to have to re-engineer our tools because they were designed for human speed. An AI agent can run 50x faster, but the tools it relies on don’t. So even if the model gets infinitely fast, you only get 2-3x improvement overall. Amdahl’s law still

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

2x 512GB Mac 환경에서 GLM-5-Q8을 실행해 본 경험을 공유하며 성능이 괜찮다고 평가했다. 여러 요청을 동시에 처리할 수 있다면 더 실용적일 것이라는 의견을 덧붙여, 로컬 대형 모델 운용과 멀티리퀘스트 대응 가능성에 대한 실사용 관점을 제시했다.

https://x.com/AiXsatoshi/status/2037908146887467372

#llm #localai #mac #glm #inference

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

2x 512GB Macで、GLM-5-Q8、ナイス 複数リクエストも対応なら使いやすくなりそう

X (formerly Twitter)

Max Weinbach (@mweinbach)

Exo가 Kimi K2.5와 함께 사용했을 때 이전보다 개선되어, 처리 속도가 초당 25토큰으로 올라가고 배치 처리와 전력 효율도 나아졌다고 언급한다. AI 추론/실행 성능 개선을 보여주는 업데이트다.

https://x.com/mweinbach/status/2037366033585975477

#exo #kimi #inference #performance #llm

Max Weinbach (@mweinbach) on X

There have definitely been some improvements to Exo since I last tried it with Kimi K2.5 Now runs at 25 tok/s with proper batching and power usage seems to be a bit lower!

X (formerly Twitter)

BOOTOSHI (@KingBootoshi)

한 에이전트가 문제를 해결하지 못하면 다른 에이전트를 추가로 투입해 서로 다른 LLM 모델의 제안을 비교·보완하는 방식으로 더 많은 컴퓨팅을 활용할 수 있다고 소개한다. 여러 모델을 조합해 다양한 해법을 얻는 실용적인 에이전트 활용 팁이다.

https://x.com/KingBootoshi/status/2037284826047537415

#llm #agents #multiagent #aiworkflow #inference

BOOTOSHI 👑 (@KingBootoshi) on X

you guys know you can throw more compute at a problem yourself right? if one agent couldn't solve it, throw a diff agent at it who can then see the proposed solutions and offer a variety of different ones BIG help especially when they're different LLM models works everytime!

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

ToolCall-15에 mlx와 LM Studio 제공자가 추가되고, 추론 옵션과 배치 호출 기능이 도입됐다. 로컬 모델 실행과 도구 호출 워크플로를 개선하는 업데이트로 보이며, AI 개발자들이 더 유연하게 inference 설정을 조정하고 대량 요청을 처리할 수 있게 된다.

https://x.com/ivanfioravanti/status/2037119070474998259

#tooling #inference #llm #lmstudio #mlx

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Here it is: ToolCall-15 with mlx and @lmstudio providers added, together with inference options and batched calls. In the screenshot same run but with different config settings. PR sent @stevibe you are the boss so feel free to choose the fate of it. 🚀

X (formerly Twitter)