Show HN: Dragoman – Multi-model routing for Claude Code via sub-agents

Dragoman은 Claude Code의 서브 에이전트 시스템에 통합되는 소규모 CLI 도구로, 질문 유형에 따라 Perplexity, Gemini, Ollama 등 여러 LLM 모델로 자동 라우팅한다. 사용자는 탭 전환 없이 적합한 모델을 선택해 질문할 수 있으며, Claude가 여러 모델의 응답을 종합하는 기능도 지원한다. API 키는 호출 시 1Password나 Keychain에서 안전하게 불러와 Claude 컨텍스트에 노출되지 않는다. Anthropic의 서브 에이전트 아키텍처를 활용해 멀티 모델 라우팅을 간편하게 구현한 점이 특징이다.

https://github.com/asakin/dragoman

#llm #multimodel #agent #cli #anthropic

GitHub - asakin/dragoman: A small CLI that lets Claude Code reach non-Anthropic models — Ollama, Perplexity, OpenAI, Gemini — through one verb the existing subagent runtime can call.

A small CLI that lets Claude Code reach non-Anthropic models — Ollama, Perplexity, OpenAI, Gemini — through one verb the existing subagent runtime can call. - asakin/dragoman

GitHub

Show HN: Tessera – Turn coding agent sessions into structured work

Tessera는 AI 코딩 에이전트 세션을 프로젝트, 컬렉션, 탭, 작업, Git 워크트리 단위로 체계적으로 관리할 수 있는 도구입니다. Claude Code, Codex, OpenCode 모델을 동시에 실행하며, 작업 상태, 로그, 코드 변경(diff), PR 상태를 실시간으로 추적할 수 있습니다. 멀티 패널 UI와 Kanban 보드를 제공해 작업 흐름을 시각적으로 관리하고, macOS, Windows, 브라우저 환경에서 모두 사용할 수 있습니다. 개발자가 여러 AI 에이전트 세션을 효율적으로 운영하고, 채팅에서 구현 작업으로 자연스럽게 전환할 수 있도록 설계되었습니다.

https://github.com/horang-labs/tessera

#aiagent #workspace #gitworktree #multimodel #developertool

GitHub - horang-labs/tessera: Tessera — a workspace for organizing AI coding sessions across projects, collections, tabs, panes, and Git worktrees

Tessera — a workspace for organizing AI coding sessions across projects, collections, tabs, panes, and Git worktrees - horang-labs/tessera

GitHub

Luma (@LumaLabsAI)

Luma Agents가 이제 Kling Omni 모델로도 생성할 수 있게 됐다. 하나의 작업 흐름에서 더 많은 모델과 더 넓은 표현 범위를 지원해, 멀티모델 기반 생성 기능이 강화되었다고 알린다.

https://x.com/LumaLabsAI/status/2053909080595640423

#ai #klingomni #generativemedia #lumalabs #multimodel

Luma (@LumaLabsAI) on X

Luma Agents can now generate with Kling Omni. More models. More range. Same workflow. Try it today → https://t.co/GdPpsPAIY7

X (formerly Twitter)

Wes Roth (@WesRoth)

Sakana AI가 ICLR 2026에서 TRINITY를 공개했습니다. TRINITY는 거대한 단일 AI 모델을 더 키우는 대신, 가벼운 코디네이터가 여러 최첨단 모델에 작업을 동적으로 분배해 문제를 해결하는 방식입니다. 대규모 스케일링 중심 흐름에 도전하는 새로운 AI 아키텍처 제안입니다.

https://x.com/WesRoth/status/2048809402254192698

#sakanaai #trinity #iclr #multimodel #aiarchitecture

Wes Roth (@WesRoth) on X

Sakana AI unveiled TRINITY at ICLR 2026, challenging the industry's obsession with endlessly scaling massive, monolithic AI models. Instead, TRINITY introduces a lightweight "coordinator" that dynamically routes tasks across a diverse pool of existing frontier models to solve

X (formerly Twitter)

Google Gemma (@googlegemma)

Gemma 4를 로컬에서 3개, 5개, 최대 10개까지 동시 실행하는 데모를 오픈소스로 공개했다. MacBook Pro M4 Max에서 Gemma 4 26B A4B가 요청당 18 tokens/sec로 10개 이상 동시 요청을 처리할 수 있다고 소개하며, 로컬 멀티모델 추론 성능을 강조했다.

https://x.com/googlegemma/status/2046621841146671456

#gemma #opensource #localinference #llm #multimodel

Google Gemma (@googlegemma) on X

What does it take to run 3, 5, or even 10 concurrent instances of Gemma 4 locally? We've open-sourced a demo letting you run multiple models side-by-side on your hardware. Gemma 4 26B A4B easily runs 10+ concurrent requests on a MacBook Pro M4 Max at 18 tokens/sec per request.

X (formerly Twitter)

Google Gemma (@googlegemma)

Gemma 4를 로컬에서 3개, 5개, 최대 10개까지 동시 실행하는 데모를 오픈소스로 공개했다. MacBook Pro M4 Max에서 Gemma 4 26B A4B가 요청당 초당 18토큰으로 10개 이상 동시 요청을 처리할 수 있다고 소개해, 온디바이스 멀티 인스턴스 구동 가능성을 보여준다.

https://x.com/googlegemma/status/2046621841146671456

#gemma #opensource #localai #llm #multimodel

Google Gemma (@googlegemma) on X

What does it take to run 3, 5, or even 10 concurrent instances of Gemma 4 locally? We've open-sourced a demo letting you run multiple models side-by-side on your hardware. Gemma 4 26B A4B easily runs 10+ concurrent requests on a MacBook Pro M4 Max at 18 tokens/sec per request.

X (formerly Twitter)

Steve (@stevendcoffey)

Agents SDK는 OpenAI 모델뿐 아니라 어떤 모델 제공자도 사용할 수 있다고 밝힌다. 기본적으로 OpenAI 모델에서 최적이지만, 다양한 랩/모델과 자유롭게 연동 가능한 개방형 설계를 강조한 중요한 개발자 도구 업데이트다.

https://x.com/stevendcoffey/status/2044518989339234431

#agentssdk #openai #multimodel #framework #aidevtools

Steve ☕️ (@stevendcoffey) on X

@andersonbcdefg You can use any model provider with the Agents SDK! Out of the box it will be most in-distribution with OpenAI models, but you can use it freely with any lab, and that will always be true

X (formerly Twitter)

Qwen (@Alibaba_Qwen)

Qwen Code의 서브에이전트 모델 선택 기능이 추가됐다. 메인 에이전트는 Qwen3.6-Plus를 쓰되, 하위 작업별로 다른 모델을 지정할 수 있어 비용과 품질을 균형 있게 조절하며 더 유연한 멀티에이전트 워크플로를 구성할 수 있다.

https://x.com/Alibaba_Qwen/status/2042551230023762081

#qwen #subagents #multimodel #aiagent #devtools

Qwen (@Alibaba_Qwen) on X

Sub-agent Model Selection — Different Tasks, Different Models Your main agent runs Qwen3.6-Plus for quality. But not every subtask needs a flagship model. Now sub-agents can use a different model. Create a skill file with model: openai:qwen3.5-plus and the sub-agent runs on

X (formerly Twitter)

Gregor (@bygregorr)

작업 중 더 강력한 모델로 라우팅하는 방식이 단순히 프롬프트를 더 잘 쓰는 것보다 효과적이라고 설명하며, 언제 상위 모델로 전환할지 판단하는 것이 핵심이라고 강조했습니다. 멀티모델 라우팅과 동적 모델 선택 전략의 중요성을 보여주는 내용입니다.

https://x.com/bygregorr/status/2042554628126961879

#routing #multimodel #llm #aitechnology #modelselection

Gregor (@bygregorr) on X

@akshay_pachaar Routing to a stronger model mid-task beats just prompting harder. The real unlock is knowing *when* to escalate, not just *that* you can.

X (formerly Twitter)

Kilo (@kilocode)

Claude 같은 단일 도구에 의존하는 방식의 한계가 드러나고 있으며, 복잡한 워크플로우에서는 멀티모델 조합이 더 적합하다는 점을 강조한다. 작성자는 이러한 멀티모델 기반 개발 환경을 Kilo 중심으로 구축하고 있다고 언급한다.

https://x.com/kilocode/status/2041640057757692146

#claude #multimodel #aiworkflow #developertools #kilo

Kilo (@kilocode) on X

@RoundtableSpace feels less like people are giving up on Claude, more like they’re hitting the limits of single-tool setups once workflows get heavier, those cracks show fast that’s why more builders are moving to multi-model setups it’s exactly what we’re building Kilo around

X (formerly Twitter)