Mastodawn

Self-Hosted Observability for Large Language Models Emerges

Developers can now watch their LLM work locally using self-hosted Langfuse. This gives more control over data and insights. Learn how it works.

#LLMOps, #Langfuse, #vLLM, #OpenSource, #AI

https://newsletter.tf/self-hosted-llm-observability-langfuse-vllm/

NewsletterTF 2h ago

Running your Large Language Models locally with Langfuse is now easier. This new method gives developers more control over their data compared to cloud services.

#LLMOps, #Langfuse, #vLLM, #OpenSource, #AI
https://newsletter.tf/self-hosted-llm-observability-langfuse-vllm/

New Way to Watch LLM Work Locally with Langfuse

Developers can now watch their LLM work locally using self-hosted Langfuse. This gives more control over data and insights. Learn how it works.

NewsletterTF

Habr 11h ago

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, снизили LoRA rank — и всё равно где-то снова падает. Особенно весело становится в RL-сценариях с GRPO, vLLM и генерацией нескольких ответов на один промпт. Поговорим о том, как перестать гадать и начать считать потребление GPU-памяти: от чтения самого текста ошибки до оценки вклада vLLM, активаций и параметров обучения. С формулами, реальными конфигами и объяснением, какие настройки действительно дают эффект, а какие только создают иллюзию оптимизации. Оптимизировать LLM

https://habr.com/ru/companies/otus/articles/1037332/

#NLP #LLM #GRPO #обучение_с_подкреплением #CUDA_out_of_memory #vLLM #оптимизация_GPU_памяти #дообучение_моделей #LoRA #PyTorch

Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и Unsloth . Всё было настроено, набор данных был готов, и вижу: torch.OutOfMemoryError: CUDA out of memory. Tried...

Хабр

Habr 11h ago

Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы

Обычно внедрение AI в компаниях происходит по такому сценарию: собрали одного ассистента, показали руководству, получили аплодисменты. Потом второго, третьего — и через полгода получается зоопарк с разными ключами, моделями и неконтролируемым бюджетом. Вместо набора разрозненных ассистентов мы сразу пошли в платформу. В статье рассказываем, из чего она состоит, как эволюционировало наше железо, зачем понадобилось два слоя наблюдаемости и почему маркетплейсный RAG ломается на PDF-файлах. С графиками, схемой архитектуры и выводами, которые сами хотели бы прочитать год назад.

https://habr.com/ru/companies/sminex_developer/articles/1037438/

#ai #llm #openwebui #langflow #langfuse #litellm #vllm #openai

Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы

Привет! Меня зовут Артём, я руковожу группой цифровой трансформации в Sminex. Последние два года моя команда занимается внедрением AI в компанию. В реальности это куда менее гламурная история, чем...

Хабр

Habr 15h ago

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси? В этом туториале — реальная архитектура low‑latency инференса на high‑load: почему изолированный inference‑bundle вместо монолита, как выбрать между vLLM и SGLang без маркетинга, зачем нужны continuous batching и admission control. Читать разбор

https://habr.com/ru/companies/otus/articles/1031286/

#AIсервисы #LLM #инференс #highload #latency #GPU #vLLM #SGLang #continuous_batching #admission_control

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель...

Хабр

Habr 1d ago

Как развернуть Mistral 7B на GPU-сервере через vLLM

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина

https://habr.com/ru/companies/selectel/articles/1035478/

#ai #mistral_7b #vllm #инференс_llm #gpu #облачный_сервер #api #nvidia_rtx #selectel

Как развернуть Mistral 7B на GPU-сервере через vLLM

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB в облаке + vLLM. Да, это далеко не...

Хабр

sayzard 2d ago

Forge LM (@ForgeLm67197)

분류(classification) 작업이 파인튜닝 ROI가 가장 높은 영역 중 하나라고 언급하며, ForgeLM이 이 워크플로를 단순화한다고 소개합니다. 단일 YAML로 SFT를 설정하고, 데이터 자동 검증과 함께 Ollama/vLLM으로 직접 배포할 수 있어 초보자용 마법사와 고급 사용자용 풀 설정을 모두 지원합니다.

https://x.com/ForgeLm67197/status/2056461740028608793

#finetuning #classification #ollama #vllm #tooling

Forge LM (@ForgeLm67197) on X

@rasbt Classification is where most fine-tuning ROI lives—boring but lucrative. ForgeLM optimizes this workflow: one YAML for SFT, auto data validation, and direct deploy to Ollama/vLLM. Wizard for beginners, full config for power users: https://t.co/OpwYTWy8Ot

X (formerly Twitter)

sayzard 2d ago

Tencent Hy (@TencentHunyuan)

고대 중국 문자 인식을 평가하는 VLLM 벤치마크 Chronicles-OCR를 오픈소스로 공개했습니다. Oracle Bone부터 Cursive까지 3,000년 문자 변천을 포괄하는 7개 역사적 스크립트와 2,800장의 균형 잡힌 이미지를 포함해, 비전-언어 모델의 희귀 문자 인식 성능을 비교·평가할 수 있습니다.

https://x.com/TencentHunyuan/status/2056567125205270882

#ocr #vllm #benchmark #opensource #computervision

Tencent Hy (@TencentHunyuan) on X

🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters. The dataset spans 3,000 years of evolution. It covers 7 historical scripts from Oracle Bone to Cursive, featuring 2,800 balanced images across highly

X (formerly Twitter)

Show thread

Tim Schupp 3d ago

@adingbatponder Yes they def. use the integrated GPUs, confirmed simply monitoring the amdgpu grafics utelisation.

Also I noticed that the vram seems to be more exhaustively used when #vLLM instead of #ollama. Also likely my configuration is still quite sub optimal.

Biggest issue atm is routing breaking prompt caching at the moment, causing hight processing times for long context. At least this is the most important thing to solve for me.

Tim Schupp 3d ago

I'm making progress on my local #LLM experiments. Now we moved from single node to 2 node Kubernetes, here a blog post about my initial setup with a bunch of new Bench-marking results: https://blog.t1m.me/blog/building-own-private-kuberntes-ai-cluster

Currently using a simple #k3s server / agent set-up, with DNS-1 certificate issuing and everything in a private #tailscale network.

Already taking the next steps towards migrating from #ollama to #vLLM and optimizing prompt / model caching + routing. Several more changes coming up :)

Building a private LLM Cluster

A hands-on experiment building a self-managed at-home AI cluster with k3s, Ollama, and LiteLLM.