Try to handle that, Claude!
Try to handle that, Claude!
Халява уходит из разработки Агентов
Сегодня каждый норовит написать универсального агента и объявить это революцией. Рынок переполнен поделками вроде OpenClaw и его клонов: IronClaw, ZeroClaw, MicroClaw, NullClaw, GitClaw, AstrBot, GripAi, Moltis... Все идут одной и той же дорогой: используют готовые MCP и дают агентам shell-оболочку. Да, это легко собрать. Да, весело. Можно хайпануть в соцсетях. Но это тупиковый путь. В статье разберем все грехи status quo и предложим другой подход, более требовательный к компетенциям в области разработки ПО.
https://habr.com/ru/articles/1010236/
#aiagent #llm #агенты_ии #lua #интерпретатор #guardrails #human_in_the_loop #openclaw #cowork #sandbox
Зачем роботам погонщик?
У любой сложной технической системы есть граница, на которой модель больше не совпадает с реальностью. Если вы видели систему со всеми зелёными метриками, но интуиция подсказывала, что дежурство будет тяжёлым, вы знаете это состояние. В распределительных центрах эту границу видят не в логах и дашбордах, а на полу склада. Когда алгоритм уже всё просчитал, а физический мир внёс свои правки. Эта статья не про роботов как технологию и не про автоматизацию как цель. Она про роль, которая появляется, когда автоматизация становится массовой. Про человека, который стоит между WMS, роботами и реальным складом. И про то, почему без этой роли, даже если формально всё работает, автоматизация со временем деградирует.
https://habr.com/ru/companies/X5Tech/articles/1001330/
#роботизация_склада #wms #wcs #rms #amr #fmr #автоматизация_логистики #human_in_the_loop #управление_инцидентами #распределительные_центры
[Перевод] LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
В гонке за следующей волной «умных» систем большие языковые модели (LLM) берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза? Реальность такова: человеческие ревьюеры по-прежнему обеспечивают уровень контекстного понимания, которому ИИ пока не соответствует. Поэтому вместо того чтобы противопоставлять методы, многие в индустрии приходят к связке «LLM-судья + человеческая оценка» как к наиболее эффективной комбинации. В этой статье разберём, что такое LLM-судья, как он соотносится с человеческой оценкой и почему гибридный подход имеет наибольший смысл.
https://habr.com/ru/articles/956374/
#ai #llm #llmмодели #genai #rag #human_in_the_loop #ии #ииагенты #ai_agent #оценка_моделей
[Перевод] Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS
Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить? Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.
https://habr.com/ru/articles/944768/
#llm #ai #scale_ai #genai #synthetic_data #finetuning #mlops #rlhf #human_in_the_loop #alignment