Red Hat Launches the llm-d Community, Powering Distributed Gen AI Inference at Scale

Red Hat has launched llm-d, a new open source project developed in collaboration with industry leaders, designed to power distributed generative AI inference at scale. The project utilizes Kubernetes architecture, vLLM-based distributed inference, and intelligent AI-aware network routing to enable robust and scalable large language model (LLM) inference clouds.

This is now my go-to library when it comes to serving an llm.

PagedAttention, distributed serving, a *very* nice python interface… this project has it all!

https://github.com/vllm-project/vllm

#ai #vllm #opensource

GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

A high-throughput and memory-efficient inference and serving engine for LLMs - vllm-project/vllm

GitHub

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления. В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3. Вперёд!

https://habr.com/ru/companies/flant/articles/906702/

#llm #gpu #ai #ml #vllm #gemma3 #devops

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование. В этой части мы перейдём к организации распределённого инференса с помощью...

Хабр

Explore how vLLM optimizes the Llama Stack for efficient and scalable LLM inference in this deep dive from the vLLM team.

https://blog.vllm.ai/2025/01/27/intro-to-llama-stack-with-vllm.html

Excellent ,@terrytangyuan.xyz !

#redhat #opensource #VLLM

Introducing vLLM Inference Provider in Llama Stack

We are excited to announce that vLLM inference provider is now available in Llama Stack through the collaboration between the Red Hat AI Engineering team and the Llama Stack team from Meta. This article provides an introduction to this integration and a tutorial to help you get started using it locally or deploying it in a Kubernetes cluster.

vLLM Blog

Построение инфраструктуры для работы с языковыми моделями: опыт X5 Tech

Привет, Хабр! Я Мичил Егоров, руководитель команды разработки продуктов искусственного интеллекта в X5 Tech. В последнее время языковые модели (LLM) стали неотъемлемой частью многих бизнес-процессов, начиная от чат-ботов и заканчивая автоматической обработкой отзывов клиентов. Однако, чтобы эффективно использовать такие модели, необходима мощная и гибкая инфраструктура. За последний год команда X5 Tech значительно выросла, проверила множество гипотез и протестировала различные модели. Основные кейсы использования включают чат-боты, суфлёры для модераторов, автоматическое резюмирование и обработку отзывов клиентов. В этой статье расскажу, как команда X5 Tech построила инфраструктуру для работы с языковыми моделями, какие вызовы преодолели и какие решения были приняты.

https://habr.com/ru/companies/X5Tech/articles/880288/

#LLM #с_нуля #построение_инфраструктуры #opensource #Закрытые_решения #маскирование_данных #clearml #vllm #логирование #мониторинг

Построение инфраструктуры для работы с языковыми моделями: опыт X5 Tech

Привет, Хабр! Я Мичил Егоров, руководитель команды разработки продуктов искусственного интеллекта в X5 Tech.  В последнее время языковые модели (LLM) стали неотъемлемой частью многих...

Хабр
Introducing vLLM Inference Provider in Llama Stack

We are excited to announce that vLLM inference provider is now available in Llama Stack through the collaboration between the Red Hat AI Engineering team and the Llama Stack team from Meta. This article provides an introduction to this integration and a tutorial to help you get started using it locally or deploying it in a Kubernetes cluster.

vLLM Blog

Achieve better large language model inference with fewer GPUs

"we achieved approximately 55-65% of the throughput on a server config that is approximately 15% of the cost"

https://www.redhat.com/en/blog/achieve-better-large-language-model-inference-fewer-gpus

#OpenShiftAI #RedHat #OpenShift #AI #Kubernetes #vllm #kubeflow #kserve

Achieve better large language model inference with fewer GPUs

As enterprises increasingly adopt large language models (LLMs) into their mission-critical applications, improving inference run-time performance is becoming essential for operational efficiency and cost reduction.

🎯 #OpenSource Language Model Platform Launch

🔧 Leverages #vLLM technology with custom #GPU scheduler for running various #LLM models
🤖 Supports major models: #Llama3 (405B/70B/8B), #Qwen2 72B, #Mixtral, #Gemma2, #Jamba15, #Phi3

https://glhf.chat/

good luck have fun

Chat with open-source models

初めてのInf2インスタンスでLlama 3.2を起動してみた - Qiita

こちらのブログに紹介されている内容をやってみました。https://aws.amazon.com/blogs/machine-learning/serving-llms-using-vllm-an…

Qiita

Just occurred to me that I could use a micro #vllm like #omnivision to automatically add #alttext to my image posts without having to manually input them. I typically use #ChatGPT to generate my alt-text anyway, and rarely have to manually edit the content. Since I own this server, I could even do it at the database level, directly modifying the content.

Worth it? Potential pitfalls? Waste of effort?

https://huggingface.co/NexaAIDev/omnivision-968M#how-to-use-on-device

#mastoadmin #mastobot #bot #ai #llm

NexaAIDev/omnivision-968M · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.