Как мы с Claude Code учились оценивать качество RAG системы

Уверен, на Хабре найдётся немало статей, посвященных оценке качества RAG систем. Тема по-прежнему остаётся актуальной, потому что даже готовые библиотеки вроде RAGAS не очень-то работают из коробки и требуют навыков программирования и некоторой квалификации. При этом сам процесс оценки - повторение достаточно простых операций и мне всегда хотелось переложить его на AI-ассистента. Повод попробовать появился неожиданно: свободное время и курс по Claude Code на Stepik. Для финала как раз нужен был проект, посвященный автоматизации реальной рутинной задачи, желательно без кода (курс про вайб-воркинг, для непрограммистов). Конечно, я сразу вспомнил про задачу оценки качества. Дальше - честная история со всеми проблемами. Забегая вперёд, скажу, что совсем без программирования не вышло. Но, может, это профессиональная деформация.

https://habr.com/ru/articles/1049028/

#claudecode #skillmd #rag_api #rag_система #автоматизация_рутины #клод_код #mcpserver #оценка_качества

Как мы с Claude Code учились оценивать качество RAG системы

Уверен, на Хабре найдётся немало статей, посвященных оценке качества RAG систем. Тема по-прежнему остаётся актуальной, потому что даже готовые библиотеки вроде RAGAS не очень-то работают из коробки,...

Хабр

#Development #Debates
The great agent skills land grab · When do agent skills actually matter? https://ilo.im/16dnau

_____
#Programming #Coding #AI #AiAgents #AgentSkills #SkillMd #ClaudeCode #WebDev #Frontend #Backend

The Great Agent Skills Land Grab

Thousands of AI agent skills have flooded GitHub recently, most of them teaching models what they already know. The land grab is on.

Den Odell

Accept-driven development или давайте снова понимать свой код

Наверное, через это уже прошёл каждый из нас :) Где-то после полугода очень достаточно работы с агентами я стал принимать диффы быстрее, чем успеваю реально в них вникнуть, в итоге в один из я оказался в ситуации, что словил баг, а на поиски проблемы потратил чуть больше часа, а найдя ее, я понял, на сколько она была тривиальной Короче говоря, то что мы используем агентов - конечно суперсила, но в итоге, мы все начинаем идти по “Accepted driven development” , а это уже начинает сильно отупливать влиять на наши с вами когнитивные возможности :) ну и на наши умения в разработке в целом Спойлер: это все решается, но нет, не тем что мы перестаем читать в целом код Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале делюсь прикладными AI-инструментами и подходами для разработки - подписывайтесь, дальше будет больше :) Так вот, обратно к теме. В этой статье я дам промпт-генератор, который соберёт learning skills под ваш проект - чтобы агенты и дальше ускоряли вас, а понимание собственного кода оставалось вашим, а не делегировалось модели :) Но сначала про сама проблему: снаружи-то это кажется все на увеличение нашего KPI, вроде ты и быстрее двигаешься, меньше застреваешь, да и в целом не тратишь часы на написания кода, но вот позже уже начинаются проблемы Когда надо объяснить, что именно ты только что принял. Какие инварианты поменялись? Почему решение такое? Какие edge cases теперь важны? Что сломается через месяц, если кто-то тронет соседний кусок кода? (а это будет не редко)

https://habr.com/ru/articles/1045882/

#oss #open_source #llm #skills #skillfactory #skillmd #ai #aiагенты #devtools #agents

Accept-driven development или давайте снова понимать свой код

Наверное, через это уже прошёл каждый из нас :) Где-то после полугода очень достаточно работы с агентами я стал принимать диффы быстрее, чем успеваю реально в них вникнуть, в итоге в один из я...

Хабр

#Development #Launches
Build with modern web guidance · A set of skills to guide your AI coding agents https://ilo.im/16d2x4

_____
#WebPlatform #AI #AiAgents #SKILLmd #ClaudeCode #Copilot #Npx #CLI #WebDev #Frontend

Modern Web Guidance  |  Chrome for Developers

Guidance on how to build for the modern web.

Chrome for Developers

Structured Outputs без иллюзий: как OpenAI, Gemini и xAI соблюдают JSON»-схемы

Проверили Structured Outputs у OpenAI, Gemini и xAI не “по документации”, а через adversarial-тесты: просили модели специально нарушить JSON Schema и смотрели, где провайдер реально удерживает формат ответа. В статье — методика, итоговая матрица ограничений, нюансы strict: true , anyOf / oneOf / allOf , и выводы для production-систем с несколькими LLM-провайдерами.

https://habr.com/ru/articles/1033478/

#llm #sgr #api #skillmd #skills_в_claude #pydantic #jsonschema

Structured Outputs без иллюзий: как OpenAI, Gemini и xAI соблюдают JSON»-схемы

Structured Outputs, или structured decoding, это способ заставить LLM возвращать ответ в заранее заданном формате: валидный JSON, соответствующий JSON Schema. На уровне генерации это обычно означает...

Хабр

🧠 Skill.md, l'innovazione che accelera l'intelligenza degli agenti AI, magnificando al contempo la loro superficie d'attacco. #IntelligenzaArtificiale #SkillMD

🔗 https://www.tomshw.it/business/skill-md-formato-aperto-agenti-ai-superficie-attacco

Skill.md, il nuovo formato che dà cervello agli agenti AI e una superficie d'attacco

Standard aperto adottato da Claude Code e OpenAI Codex. È un file con codice eseguibile e accesso al sistema: nuova categoria di rischio supply chain.

Tom's Hardware

#Design #Approaches
Agents with taste · Turning design taste into rules agents can follow https://ilo.im/16cqgh

_____
#Taste #SKILLmd #AI #Agents #ClaudeCode #Animations #ProductDesign #UxDesign #UiDesign #WebDesign

Agents with Taste

How to transfer taste into an AI.

Emil Kowalski
next find is https://github.com/Rito-w/skills-manager but that seems to be build to install #skillmd files build for distribution. meaning it is easy to create a single dir with the SKILL.md and everything related to this specific skill is placed on the same level or below. this doesn't work when the skill relatates to a specific code repository and referenced content isn't organized entirely below the skill.
GitHub - Rito-w/skills-manager: A cross-platform skills manager for AI IDEs. Search marketplace, download locally, and install to Claude, Cursor, Windsurf, and more with one click.

A cross-platform skills manager for AI IDEs. Search marketplace, download locally, and install to Claude, Cursor, Windsurf, and more with one click. - Rito-w/skills-manager

GitHub

I have an API which sits in front of NLP services. I provide the NLP service authors with instructions/best practices for this code (Dockerfile, error handling etc) since these are not software engineers.

A #SKILLmd seems like the obvious choice. But that SKILL.md will need to reference various specific docs in the API, so I don't want to split this into separate repos.

How to structure the content in the API repo to enable this? Is a Git submodule (+ symlinks?) the way to keep things in sync?

Я дал AI-агенту канбан-борд, и он справился с проджект-менеджментом лучше моей команды

Есть такой момент, знакомый каждому, кто долго работает в паре с AI. Сидишь в терминале, Claude генерит код, ты ревьюишь, правишь курс, снова запускаешь. Проходит пара часов, и ты понимаешь: никто не записал, что вообще произошло. Ни один тикет не обновлен. Таймер не запущен. Чат на тысячу строк, но он испарится, как только закроешь сессию. А когда коллега спросит, что было сделано за день, ты будешь восстанавливать картину по памяти. Удачи. Меня это достало. Заканчиваю марафон-сессию с Claude или Codex, ощущение, что гора работы сделана, а доска проекта все так же показывает Not Started. Тайм-трекинг? Какой тайм-трекинг. Разрыв между реальной работой и тем, как выглядит проект, стал просто нелепым.

https://habr.com/ru/articles/1020106/

#kanban #claude #codex #agent #skillmd #jira #linear #mcpserver #mattermost #focalboard

Я дал AI-агенту канбан-борд, и он справился с проджект-менеджментом лучше моей команды

Или что происходит, когда AI-агенты сами ведут спринт-борд Канбан-борд Дисклеймер: оригинал статьи написан автором для medium.com на английском языке. Для адаптации на русский язык использовалась...

Хабр