Canada's mid-size cities are growing like big ones — and running into the same fights
CMHC data suggests Canada's mid-size cities are growing denser. From Halifax to Kelowna, apartments and other multi-unit housing now make up more new construction — even as residents, experts and developers disagree on how to address the crisis and who new housing should serve.
https://www.cbc.ca/news/canada/mid-size-canadian-cities-building-more-apartments-fewer-houses-9.7175938?cmp=rss

fly51fly (@fly51fly)

희소 어텐션과 계층적 메모리를 결합해 긴 컨텍스트 LLM 서빙을 확장 가능하게 만드는 방법을 제안합니다. 장문 입력 처리와 효율적인 추론 인프라에 직접적으로 관련된 중요한 연구입니다.

https://x.com/fly51fly/status/2049968345911574757

#longcontext #llm #attention #memory #serving

fly51fly (@fly51fly) on X

[LG] Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving Z Zhao, B Lu, S Lin, Y Chen… [Microsoft Research] (2026) https://t.co/kWDltVXx8E

X (formerly Twitter)

Z.ai (@Zai_org)

모델 스케일링으로 성능은 향상되지만, 프로덕션에서의 신뢰성은 별도 과제라는 점을 다룬 글입니다. Z.ai는 최신 블로그에서 대규모 서빙 중 발생하는 드문 깨짐 출력 문제를 재현하고 디버깅한 사례를 공유하며, GLM-5 서빙의 스케일링 문제를 분석했습니다.

https://x.com/Zai_org/status/2049601030170857891

#llm #inference #serving #reliability #glm5

Z.ai (@Zai_org) on X

Scaling laws push model capability forward. But whether that capability becomes reliable in production depends on how we handle Scaling Pain. https://t.co/o0k0E0hOAp In our latest blog, we share how we debugged GLM-5 serving at scale: reproducing rare garbled outputs,

X (formerly Twitter)

Haneen Dahbour (@HaneenDahbdilv)

LLM이 클라우드 인프라에서 어떻게 동작하는지, 그리고 llm-d가 그 환경에서 어떤 역할을 하는지 설명을 요청하는 트윗입니다. LLM의 실행 방식과 내부 동작 원리를 이해하려는 개발자 관점의 질문으로, 클라우드 기반 대규모 모델 서빙과 인프라 구조에 대한 관심을 보여줍니다.

https://x.com/HaneenDahbdilv/status/2046301961235124305

#llm #cloud #infrastructure #serving #llmd

Haneen Dahbour (@HaneenDahbdilv) on X

@_avichawla @DailyDoseOfDS_ Your way of explaining is really thoughtful Can you explain how LLM s run on cloud infrastructure, plus how the llm-d works there What is the idea like what goes behind how they work?

X (formerly Twitter)

Avi Chawla (@_avichawla)

Anthropic, OpenAI, Gemini 등 주요 LLM의 서빙 파이프라인 전체에서 사용되는 72가지 최적화 기법을 9개 계층으로 정리한 내용입니다. INT4 양자화부터 애플리케이션 엣지의 모델 캐스케이딩까지 포함해, 프로덕션 LLM 운영에 필요한 핵심 성능 최적화 스택을 체계적으로 분석한 글입니다.

https://x.com/_avichawla/status/2045224379718791273

#llm #optimization #serving #quantization #ai

Avi Chawla (@_avichawla) on X

Anthropic. OpenAI. Gemini. Every production LLM runs on a stack of optimizations, not a single trick. I mapped out 72 of them across the full serving pipeline, grouped into 9 layers, from INT4 quantization at the weights all the way to model cascading at the application edge.

X (formerly Twitter)

bstn (@bstnxbt)

dflash-mlx v0.1.1이 공개됐다. dflash-serve가 tools, reasoning, streaming, OpenAI 호환 서빙을 지원하며 OpenCode, aider, Continue, Open WebUI와 연동된다. oMLX에서도 사용 가능하다. AI 개발용 서빙 프레임워크/도구의 기능 확장 소식이다.

https://x.com/bstnxbt/status/2044115438443893030

#ai #serving #opensource #openai #tooling

bstn 👁️ (@bstnxbt) on X

dflash-mlx v0.1.1 dflash-serve now supports tools, reasoning, streaming, and full OpenAI-compatible serving. Works with OpenCode, aider, Continue, Open WebUI. Also available via oMLX (thanks jundot). https://t.co/Co31JoPAms

X (formerly Twitter)

Base Camp Bernie (@basecampbernie)

동시성 에이전트를 높은 대역폭으로 서빙한 사례가 공유되며, 멀티 에이전트 추론/서빙 최적화가 인상적으로 작동하고 있음을 시사한다.

https://x.com/basecampbernie/status/2042661495864177074

#agents #serving #multitasking #aiinfra

Base Camp Bernie (@basecampbernie) on X

@AiXsatoshi Yes, concurrent agents served with that bandwidth. It is wonderful to see.

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

Ollama가 동시 요청에 대한 연속 배치(continuous batching)를 지원하는지 묻는 질문이다. LLM 서빙 성능과 처리량 최적화와 관련된 중요한 개발 도구 기능 문의로 볼 수 있다.

https://x.com/ivanfioravanti/status/2042622686128476553

#ollama #llm #serving #batching #inference

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Does @ollama support Continuous batching of concurrent requests? 🤔

X (formerly Twitter)

Avi Chawla (@_avichawla)

KV 캐싱을 사용할 때와 사용하지 않을 때의 LLM 추론 속도를 비교하며, KV 캐싱이 왜 성능 향상에 중요한지 설명하는 기술 공유 트윗입니다. LLM 서빙 최적화와 추론 효율 개선에 관심 있는 개발자에게 유용한 내용입니다.

https://x.com/_avichawla/status/2035084029062750714

#llm #inference #kvcaching #optimization #serving

Avi Chawla (@_avichawla) on X

LLM inference speed with vs. without KV caching: (learn how and why it works below)

X (formerly Twitter)
No, we don't need high-protein boxed mac and cheese, experts say. But people want it
Kraft Heinz has just announced it's launching a high-protein mac and cheese called PowerMac that delivers 17 grams of protein and six grams of fibre per serving. But did we ... need this?
https://www.cbc.ca/news/canada/kraft-dinner-protein-9.7136154?cmp=rss