🚀 Running #OCR at scale with a #Vision #LLM for $0.49/hour

Just deployed dots.ocr (3B parameter Vision LLM by RedNote) on a single #RTX A6000 (48GB VRAM) via #RunPod. The results are great:

https://github.com/rednote-hilab/dots.ocr

#ai #opensource

📄 The Setup
- Upload any #PDF → server converts each page to an image (PyMuPDF)
- Images are sent in parallel to #vLLM (continuous batching)
- The Vision LLM reads each page and returns clean Markdown

🧵 👇

SGLang and vLLM Workshops Coming to GOSIM Paris 2026!

The GOSIM Workshops have long been known for their diversity, hands-on learning, and interactivity, making them one of the most popular segments of the conference.

This May, the SGLang Workshop and vLLM Workshop will arrive at GOSIM Paris 2026, bringing together AI infrastructure developers from around the world to explore the latest advances in LLM inference systems.

Ticket purchase link:
https://eventbrite.com/e/gosim-paris-2026-tickets-1984013840806?aff=oddtdtcreator

#SGLang #vLLM

Get started with consuming GPU-hosted large language models on Developer Sandbox | Red Hat Developer

Learn the many ways you can interact with GPU-hosted large language models (LLMs) on Developer Sandbox, including connecting the model endpoints, interacting with the API endpoints using the hosted

Red Hat Developer
#vllm #Opensource #openai #python
It is ridiculous (I'm sorry), but I don't have the hardware to see what I been building with vLLM. I started innocently with prompts, not sure how I got here either. Any industry knowing insider eyes taking a look would know immediately; then I can get back to my own field which is literature. Grok on Twitter / X gives it the following review, but until human eyes look at it, I can never ever know:
https://x.com/grok/status/2032528365870072079?s=20
Open source:
https://codeberg.org/SchneeBTabanic/ProjectNamirha
Grok (@grok) on X

@Schnee_BTabanic @elonmusk Reviewed vessel_v4_7_vllm.py. It implements a Flask + vLLM server for local LLMs with XGrammar token masking to enforce structured outputs (PREMISE → EVIDENCE → DEDUCTION → ACTION), dynamic logit shaping, checkpointed generation, and local tool audits (fetch, search) via MCP.

X (formerly Twitter)

Complete vLLM setup guide with Docker, OpenAI API compatibility, PagedAttention optimization. Compare vLLM vs Ollama vs Docker Model Runner for production.

#LLM #AI #Python #Docker #DevOps #Self-Hosting #vllm #K8S

https://www.glukhov.org/llm-hosting/vllm/vllm-quickstart/

vLLM Quickstart: High-Performance LLM Serving - in 2026

Complete vLLM setup guide with Docker, OpenAI API compatibility, PagedAttention optimization. Compare vLLM vs Ollama vs Docker Model Runner for production.

Rost Glukhov | Personal site and technical blog

🚀 Big news!
The SGLang Workshop & vLLM Workshop are coming to GOSIM Paris 2026! 🎉
🌐 A must-attend event for AI developers and open-source contributors worldwide
💡 Dive into cutting-edge topics: large model inference, agentic AI, and more
🎓 Hands-on sessions and discussions to bring high-value learning and networking

Get your early bird tickets now and enjoy the discount: https://eventbrite.com/e/gosim-paris-2026-tickets-1984013840806?aff=oddtdtcreator 🚀

#GOSIMParis2026 #SGLang #vLLM #AIWorkshop #OpenSourceAI

vLLM now powers high‑throughput inference with its new PagedAttention engine, cutting latency and boosting GPU utilization. Continuous batching lets you serve OpenAI‑scale workloads in production without sacrificing cost. Dive into how this open‑source stack reshapes large‑model serving. #vLLM #PagedAttention #GPUInference #MLInference

🔗 https://aidailypost.com/news/vllm-boosts-production-inference-through-high-throughput

Neu auf agentenlog.de:
LLMs auf Proxmox selbst hosten: Der vollständige Praxis-Guide
https://agentenlog.de/posts/2026-01-15-proxmox-self-hosting
Transparenz: Dieser Post basiert auf KI-unterstützter Redaktion.
#Agentenlog #Proxmox #vLLM #Ollama
LLMs auf Proxmox selbst hosten: Der vollständige Praxis-Guide – Agentenlog

Von der GPU-Passthrough-Konfiguration bis zum fertigen API-Endpunkt: Wie du lokale KI-Modelle auf Proxmox VE mit Ollama oder vLLM produktionsreif betreibst.

Agentenlog

Learn how to monitor LLM inference in production using Prometheus and Grafana. Track p95 latency, tokens/sec, queue duration, and KV cache usage across vLLM, TGI, and llama.cpp. Includes PromQL examples, dashboards, alerts, Docker & Kubernetes setups.

#Monitoring #Hosting #Self-Hosting #LLM #AI #DevOps #Docker #K8S #Prometheus #Grafana #observability #kubernetes #vllm

https://www.glukhov.org/observability/monitoring-llm-inference-prometheus-grafana/

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

Привет, Хабр! На фоне ажиотажа вокруг нейросетей все чаще встает вполне приземленный вопрос — сколько стоит содержать собственную LLM. Современные ИИ-агенты уровня Claude, ChatGPT и DeepSeek уже давно перестали быть «чатами для развлечения». Это сложные системы, которые перед тем как выдать ответ, тратят десятки тысяч токенов на внутренние рассуждения, вызывают внешние функции, взаимодействуют с MCP-серверами и даже работают напрямую с интерфейсом ОС. В продакшене — особенно при использовании нескольких агентов, собственных инструментов и фоновых задач — потребление токенов растет лавинообразно. При плотной нагрузке счет за API легко превращается в постоянную и плохо прогнозируемую статью расходов, от которой уже сложно отмахнуться. В статье я покажу практичный компромисс: как развернуть собственную облачную LLM, которая укладывается в 16 ГБ видеопамяти , поддерживает инструменты и вызов функций, интегрируется с MCP-серверами и может использоваться как полноценный API-сервис для бэкенд-задач.

https://habr.com/ru/companies/selectel/articles/1005504/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1005504

#langchain #langgraph #python #vllm #qwen3 #localai #selectel #MCP #ииагенты #APIсервис

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

Привет, Хабр! На фоне ажиотажа вокруг нейросетей все чаще встает вполне приземленный вопрос — сколько стоит содержать собственную LLM. Современные ИИ-агенты уровня Claude, ChatGPT и DeepSeek уже давно...

Хабр