Harness adversarial de Anthropic: ¿vale USD 200?

¿Vale USD 200 y 6 horas un harness generador evaluador IA vs USD 9 con el resultado roto? Los experimentos de 2026 responden con datos concretos.

https://blog.donweb.com/harness-generador-evaluador-ia-iteraciones-adversariales/

#anthropic #agentesia #multiagent #generatorevaluator #desarrolloconia

Harness generador evaluador IA: 12 iteraciones

¿Vale USD 200 y 6 horas un harness generador evaluador IA vs USD 9 con el resultado roto? Los experimentos de 2026 responden con datos concretos.

Blog Donweb

Bindu Reddy (@bindureddy)

Agent Swarms라는 멀티에이전트 시스템이 소개되었으며, 프론트엔드·백엔드·비전·효율화 등 역할별로 여러 최상위 LLM(Claude Opus 4.7, GPT-5.5, Gemini Pro, Kimi, DeepSeek)을 조합해 복잡한 소프트웨어 개발과 마케팅 업무까지 수행하는 방향을 제시한다. 멀티모델 기반 에이전트 오케스트레이션 사례로 볼 수 있다.

https://x.com/bindureddy/status/2055698703877329014

#multiagent #agents #llm #software #automation

Bindu Reddy (@bindureddy) on X

🚨 Agent Swarms Are Multi-Agent Systems That Create Agents with Top LLMs Including - Opus 4.7 for front-end - GPT 5.5 for backend - Gemini Pro for visual understanding - Kimi and DeepSeek for efficiency With Agent Swarms, AI can build complex software, run marketing teams and

X (formerly Twitter)

Анатомия production AI агента: разбор двух открытых промптов Anthropic

Что должно быть в теле production AI агента? Не «один длинный промпт», а структурированная система: роль, бюджет вызовов, OODA loop, потолки ресурсов, разделение ответственности между агентами. Разбираю два открытых промпта от Anthropic ( research_lead_agent.md и research_subagent.md ), собираю чек-лист из 13 блоков и шаблон SKILL.md . На руки — конкретный артефакт, по которому можно пройтись по своему агенту.

https://habr.com/ru/articles/1035948/

#claude #anthropic #aiагенты #llm #context_engineering #agent_skills #system_prompt #claude_code #multiagent

Анатомия production AI агента: разбор двух открытых промптов Anthropic

Год назад, в мае 2025, инженеры Anthropic вышли на Code w/ Claude с докладом «Prompting for Agents». Семь принципов промптинга, публичный workbench в браузере, пара примеров...

Хабр

System2 – Multi-Agents for Data

System2는 단일 사용자용 셀프호스팅 AI 멀티에이전트 시스템으로, 데이터 엔지니어링, 분석, 통계적 추론 작업을 지원합니다. Kahneman의 체계적 사고 방식을 모티브로 하여, 사용자가 기존 데이터 스택과 통합하거나 새로 구축할 수 있으며, 에이전트 팀이 파이프라인 구축, 데이터 분석, 오류 탐지, 대화형 결과물을 제공합니다. 다양한 LLM 공급자(OAuth 구독 및 API 키)를 지원하며, PostgreSQL, TimescaleDB 등 여러 데이터베이스와 ETL, 오케스트레이션 도구와 연동됩니다. 실시간 협업, 장기 기억, 자동 백업, 대시보드 및 노트북 생성 기능을 갖추어 AI 기반 데이터 작업 자동화와 협업에 즉시 활용 가능합니다.

https://github.com/diegoscarabelli/system2

#multiagent #dataengineering #llm #selfhosted #automation

GitHub - diegoscarabelli/system2: A single-user, self-hosted AI multi-agent system for working with data.

A single-user, self-hosted AI multi-agent system for working with data. - diegoscarabelli/system2

GitHub

DeerFlow 2.0 от ByteDance: развернул super-agent harness через Docker, прогнал на реальной задаче

В конце февраля ByteDance выложила DeerFlow 2.0 — open-source агентный фреймворк, который команда позиционирует как “super agent harness”. Релиз залетел в топ-1 GitHub Trending, набрал 61 тысячу звёзд за пару недель, попал во все технические телеграм-каналы. Развернул через Docker на своём VPS, прогнал на реальной задаче (ресёрч по рынку эспрессо-машин с генерацией отчёта), разобрался с архитектурой. Рассказываю, что внутри, чем отличается от Claude Code и OpenHands, и почему телеграм-маркетинг расходится с честным README в нескольких важных местах.

https://habr.com/ru/articles/1034900/

#LangGraph #AIагенты #multiagent #DeerFlow #ByteDance #superagent_harness #Docker #subagents

DeerFlow 2.0 от ByteDance: развернул super-agent harness через Docker, прогнал на реальной задаче

61 тысяча звёзд на GitHub за один релиз — это много или мало? Что под капотом, чем отличается от Claude Code и OpenHands, и где честные ограничения В конце февраля 2026 ByteDance выложила вторую...

Хабр

Prave – the missing management layer for AI Agent Skills

Prave는 AI 에이전트 스킬 관리를 위한 통합 플랫폼으로, 자연어 의도 기반 스킬 검색, 원클릭 설치, 그리고 스킬 사용량과 충돌을 실시간으로 감사하는 기능을 제공합니다. Claude, Cursor, Codex, Gemini, Cline, Amp 등 다양한 AI 에이전트에 동일한 스킬 포맷을 배포할 수 있어 멀티 에이전트 환경에서 효율적인 스킬 관리가 가능합니다. 또한, 30일간의 트리거 텔레메트리와 토큰 사용량 분석을 통해 비용 최적화와 성능 개선을 지원하며, 무료부터 고급 기능을 제공하는 유료 플랜까지 다양하게 구성되어 있습니다. 친환경 인프라와 데이터 프라이버시를 중시하는 점도 특징입니다.

https://prave.app/

#aiagent #skillmanagement #semanticsearch #multiagent #telemetry

Prave — The Claude Skills platform: discover, audit, ship.

Discover 1,000+ Claude Skills by intent, audit your library's token cost, track which Skills actually fire, and ship updates with one CLI command.

Prave

Open Questions – AGI

이 글은 2026년 AGI(범용 인공지능) 시대에 AI 개발자들이 직면할 주요 질문들을 다룹니다. 특히, 파인튜닝 시점, 컴퓨팅 자원과 데이터 공급 병목, 멀티 에이전트 환경에서 목표 유지 문제, 알고리즘 발전과 컴퓨팅 효율성, 그리고 AI 에이전트의 실용적 한계와 가능성에 대해 심도 있게 논의합니다. Anthropic, OpenAI 등 주요 연구기관의 현황과 미래 전망, 그리고 AI 산업 내 경제적·기술적 피드백 루프에 관한 고민도 포함되어 있습니다. AI 개발자들이 AGI 시대에 어떤 기술과 전략에 집중해야 할지 방향성을 제시하는 고찰입니다.

https://handsdiff.substack.com/p/open-questions-agi

#agi #llm #finetuning #multiagent #compute

Open Questions - AGI

What to work on in an age of AGI? What skills are worth building? How do timelines impact decision making today?

hands

I built an open-source visual AI agent builder – PandaFlow

PandaFlow는 오픈소스 시각적 AI 에이전트 빌더로, 사용자가 멀티 에이전트 AI 시스템을 시각적으로 설계하고 구축할 수 있게 해준다. 이 도구는 복잡한 AI 에이전트 간의 상호작용을 직관적으로 관리할 수 있어 AI 에이전트 개발 생산성을 높인다. GitHub에서 공개되어 누구나 활용 및 확장이 가능하다.

https://news.ycombinator.com/item?id=48093673

#opensource #aiagent #visualprogramming #multiagent #aidevelopment

I built an open-source visual AI agent builder – PandaFlow | Hacker News

GitHub - adamjgmiller/adamsreview: Multi-lens code review pipeline for Claude Code: deep review (Claude or Codex), auto-fix loop, interactive walkthrough, external-finding injection.

Multi-lens code review pipeline for Claude Code: deep review (Claude or Codex), auto-fix loop, interactive walkthrough, external-finding injection. - adamjgmiller/adamsreview

GitHub

Recursive Multi-Agent Systems

RecursiveMAS는 다중 에이전트 시스템을 잠재 공간 재귀 계산으로 통합하여 에이전트 간 협업을 확장하는 새로운 프레임워크입니다. 텍스트 기반 MAS 대비 최대 2.4배 속도 향상과 75.6% 토큰 사용량 감소를 달성하며, 평균 정확도는 8.3% 향상되었습니다. 각 에이전트는 내부 링크로 잠재 생각을 생성하고 외부 링크로 다른 에이전트에 전달하며, 전체 시스템은 재귀 루프로 구성되어 안정적인 그래디언트와 효율적인 학습을 보장합니다. 4가지 협업 패턴에 적용 가능하며, 수학, 과학, 의학, 코드 생성 등 9개 벤치마크에서 우수한 성능을 입증했습니다.

https://recursivemas.github.io/

#multiagent #latentspace #recursion #llm #collaboration

Recursive Multi-Agent Systems

Scaling agent collaboration via latent-space recursion. +8.3% accuracy, up to 2.4x speedup, up to 75.6% fewer tokens across 9 benchmarks.

RecursiveMAS