Выбор LLM и фреймворка для ИИ-агентов

Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

https://habr.com/ru/companies/postgrespro/articles/979820/

#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

Выбор LLM и фреймворка для ИИ-агентов

Последние полтора года наша ML-команда делает крайне интересные штуки, например строит ИИ-агентов поверх PostgreSQL, при этом инфраструктура меняется, индустрия созревает, а ожидания и требования к...

Хабр

Bài viết giới thiệu giải thích đơn giản về GSPO, đi kèm với công cụ trực quan hóa tương tác giúp người đọc dễ dàng nắm bắt khái niệm phức tạp này. Rất hữu ích cho ai muốn tìm hiểu!
#GSPO #MachineLearning #AI #TrựcQuanHóa #KhoaHọcDữLiệu

https://www.reddit.com/r/LocalLLaMA/comments/1pc8a65/a_simple_explanation_of_gspo_interactive/

Как мы обеспечили +33% к точности на сложных SQL-запросах

Традиционные подходы к генерации SQL-запросов часто полагаются на инструктированные языковые модели, но они могут быть неэффективными и неточными. Мы рассмотрим новый подход, основанный на использовании Reinforcement Learning для дообучения моделей, который может улучшить точность и эффективность генерации SQL.

https://habr.com/ru/companies/postgrespro/articles/954538/

#sqlгенератор #генерация_sql #grpo #gspo #rl #дообучение #sqlfuse #chasesql #skyrlsql #reasoning_sql

Как мы обеспечили +33% к точности на сложных SQL-запросах

Генератор SQL на базе LLM — понятный продукт с понятной ценностью. Он может быть отдельной платформой или инструментом для агента, решающего более общую задачу. Генерировать код модели с попеременным...

Хабр