Your model trains on a MacBook with Metal, then dies on the Linux GPU cluster: wrong CUDA, missing native libs, broken paths.

Nix builds each environment as a pure function of its declared inputs, so one declarative PyTorch runtime resolves identically on macOS and Linux/CUDA. The bits you test are the bits you run.

New write-up builds it, then batch-trains nanoGPT on Slurm:

https://buff.ly/AQgIPW7

#Nix #MLOps #PyTorch #FOSS

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили всего лишь найти дешевые яйца, сам купил их на Instacart на $31.43 – в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон : говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability» , где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка. Ни один из этих случаев не всплыл бы в обычном демо. И ни один бенчмарк про них заранее бы не предупредил. Публичные бенчмарки полезны – по ним видно, какая модель в целом сильнее и куда движется фронтир. Но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи. А часть аспектов – безопасность, устойчивость к злоупотреблениям, поведение под атакой – бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система – это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.

https://habr.com/ru/articles/1050736/

#evals #LLM #AIагенты #бенчмарки #надёжность_AI #LLMasjudge #SWEbench #MLOps #AIинжиниринг #тестирование

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую...

Хабр

Data Engineering: The Backbone of Every AI System

Data Engineering: The Backbone of Every AI System

Behind every great ML model is a great data pipeline. Data engineering — ingestion, transformation, orchestration, and quality — is the unglamorous work that makes analytics and AI actually possible. Reliable pipelines, clean data, and scalable infrastructure turn raw data into real decisions.

https://en.wikipedia.org/wiki/Data_engineering

#DataEngineering #DataPipeline #MLOps #BigData #Dat...

Data Engineering: The Backbone of Every AI System

Data Engineering: The Backbone of Every AI System

Behind every great ML model is a great data pipeline. Data engineering — ingestion, transformation, orchestration, and quality — is the unglamorous work that makes analytics and AI actually possible. Reliable pipelines, clean data, and scalable infrastructure turn raw data into real decisions.

https://en.wikipedia.org/wiki/Data_engineering

#DataEngineering #DataPipeline #MLOps #BigData #Dat...

At 2am I realized my routing layer was doing exactly what I built it to do. That was the problem.

A fast model gets silently updated. Accuracy collapses. The router keeps routing there anyway, because three weeks of good history says to.

Convergence is not the finish line.

One tripwire per arm fixed this. ADWIN. Published 2007.

https://praveenlavu.com/dispatch/adwin-drift-routing
#machinelearning #mlops #routing #softwareengineering #drift

Drift Detection for LLM Routing: Catching Silent Model Degradation · Praveen Lavu

A router that learns which model to trust will, sooner or later, get quietly betrayed. A fast cheap model gets silently updated, its accuracy on your tasks collapses, and your router keeps happily sending work to the one arm that has stopped working, because three weeks of good history says it should. This is the failure mode, why bandit routing is blind to it, and the per-arm tripwire I built

Praveen Lavu

IMDA LLM 테스팅 스타터 키트 리뷰: 실무 관점의 분석과 개선 제안

IMDA의 LLM 테스팅 스타터 키트는 환각, 편향, 데이터 유출 등 5대 핵심 리스크를 정의하여 기업이 AI 안전 가드레일을 구축할 수 있는 표준 가이드라인을 제공한다.

🔗 원문 보기

IMDA LLM 테스팅 스타터 키트 리뷰: 실무 관점의 분석과 개선 제안

IMDA의 LLM 테스팅 스타터 키트는 환각, 편향, 데이터 유출 등 5대 핵심 리스크를 정의하여 기업이 AI 안전 가드레일을 구축할 수 있는 표준 가이드라인을 제공한다.

Ruby-News

Компиляция yolov8n в формат HEF для Hailo-8L на Raspberry Pi 5

Подготовка модели Yolo для запуска на базе Hailo чипа для Raspberry Pi 5 AI HAT+. Если есть интерес к легким аппаратным решениям в области ИИ, то добро пожаловать. В статье я затрагиваю вопрос подготовки модели детекции к работе на компактной малинке.

https://habr.com/ru/articles/1048976/

#onnx #hailo #hailo8 #raspberry #ultralytics #yolo #yolo8 #ml #mlops #ai

Компиляция yolov8n в формат HEF для Hailo-8L на Raspberry Pi 5

Введение Уже некоторое время увлекаюсь машинным обучением и нейросетями. В какой‑то момент стало интересно снабдить имеющуюся Raspberry Pi 5 нейрочипом, который берет на себя нагрузку...

Хабр

2am. Triggered two model pulls, a 70B load, a cluster of cloud API agents, and seven daemons. All at once. 96GB unified memory.

Kernel panic.

Not 'do the models fit in RAM?' — fragmentation, in-flight buffers, filesystem cache, kernel allocations. All sharing the same pool. All spiking together.

Two queues. Local-heavy: serial. Cloud API: bounded parallel. Never cross-mix.

#LocalLLM #LLMOps #AppleSilicon #MLOps

Same person. 14 weeks apart.

9 yrs Senior Data Engineer. Watched colleagues get ML promotions — he didn't.

14 wks with a senior MLE — feature stores, model serving, evals.

→ MLE at Series B health-tech. +equity.

→ tutorac.com

#Tutorac #AIEngineer #MLOps #1on1Tutor