Turning recorded D&D sessions into comics

이 프로젝트는 실제 D&D 세션을 녹음한 후, ElevenLabs의 아이슬란드어 음성인식으로 텍스트를 추출하고 Claude Code를 활용해 만화 스크립트로 변환하는 파이프라인을 구축했다. 각 캐릭터별 참조 이미지로 일관된 비주얼을 유지하며, 페이지별 대본 승인 절차를 통해 오류를 최소화한다. 최종적으로 GPT-image-2 모델로 각 페이지를 생성하며, DM의 내레이션과 효과음도 시각적으로 표현한다. 이 시스템은 세션 요약을 그래픽 노블 형태로 제공해 플레이어들이 쉽게 내용을 복습할 수 있도록 돕는다.

https://haffi112.github.io/2026/05/14/dnd-comics/

#speechtotext #comicgeneration #ttrpg #llm #multimodal

Turning recorded D&D sessions into comics · Hafsteinn Einarsson

A small pipeline that records a session on a Zoom H1 Essential, transcribes the Icelandic audio with ElevenLabs, and renders each session as a graphic novel with gpt-image-2 and a set of reference images that keep the cast looking consistent across pages.

Hafsteinn Einarsson
Thử nghiệm thành công tạo truyện tranh bằng LLM và mô hình khuếch tán nội bộ! Giải quyết bài toán thay đổi nhân vật qua các trang nhờ: mô hình vision-language trích xuất đặc điểm, lưu embedding (FAISS), tái sử dụng trong từng trang và kiểm tra độ tương đồng. Stack: Mistral 8x7B, SDXL, RTX 4090. Kết quả: truyện 8 trang trong 8.5 phút, độ nhất quán nhân vật 92% (CLIP score). Hạn chế: vẫn lệch trên 16 trang, nhân vật phụ phức tạp khó duy trì. #ComicGeneration #CharacterConsistency #LLM #DiffusionMo