Lincoln (@Presidentlin)
음성 입력 파일을 대상으로 하는 Speech-to-Text와 Text-to-Speech 사용 사례를 언급하며, 입력 형식이 mp3, mp4, mpeg, mpga, m4a, wav, webm 같은 파일 기반이어야 한다는 점을 설명한다. 파일 단위 음성 처리 기능에 대한 언급이다.
Lincoln (@Presidentlin)
음성 입력 파일을 대상으로 하는 Speech-to-Text와 Text-to-Speech 사용 사례를 언급하며, 입력 형식이 mp3, mp4, mpeg, mpga, m4a, wav, webm 같은 파일 기반이어야 한다는 점을 설명한다. 파일 단위 음성 처리 기능에 대한 언급이다.
Grafting a Speech Head onto Gemma 4 E4B
Gemma 4 E4B는 텍스트, 이미지, 오디오를 입력받아 통합된 언어 모델로 작동하는 소형 멀티모달 모델이다. 본 실험은 Gemma의 디코더 마지막 6개 층의 히든 스테이트를 활용해 별도의 TTS 없이 직접 음성 코덱 토큰을 예측하는 오디오 헤드를 학습시키는 아키텍처적 시도를 다룬다. 이를 위해 Mimi 코덱 디코더를 고정하고 Gemma-투-Mimi 토큰 헤드만 학습하며, 음성 출력이 텍스트를 거치지 않고 생성되는 구조를 검증했다. 결과는 초기 단계의 프로토타입 수준이나, 멀티모달 LLM의 음성 생성 가능성을 보여주는 의미 있는 연구이다.
Vanar (@Vanarchain)
음성 입력과 실시간 추론이 결합된 업그레이드로, ChatGPT가 단순한 텍스트 인터페이스를 넘어 진정한 멀티모달 어시스턴트에 더 가까워졌다는 평가다. AI 개발자 관점에서 사용자 인터랙션과 실시간 추론 기능의 진전을 보여주는 주목할 만한 개선이다.
Mistral Medium 3.5 Is Now Available in Puter.js
Puter.js가 Mistral AI의 최신 멀티모달 LLM인 Mistral Medium 3.5를 지원하기 시작했다. 이 모델은 1280억 파라미터, 25만 6천 토큰 컨텍스트 윈도우를 갖추고 있으며, 명령 수행, 추론, 에이전트 코딩 기능을 하나의 가중치 세트로 통합했다. 네이티브 함수 호출, 구조화된 JSON 출력, 가변 이미지 크기 처리 비전 기능을 제공하며, 요청별 reasoning_effort 파라미터로 빠른 응답과 심층 추론 모드를 조절할 수 있다. Puter.js를 통해 API 키 없이 무료로 바로 웹 애플리케이션에 적용 가능하다.
https://developer.puter.com/blog/mistral-medium-3-5-puter-js/
blink-dev: Intent to Ship: Prompt API
구글 크롬이 웹 개발자에게 온디바이스 AI 언어 모델에 직접 접근할 수 있는 Prompt API를 출시할 예정입니다. 이 API는 텍스트, 이미지, 오디오 입력을 지원하며, 정규식과 JSON 스키마 기반의 응답 제약 조건을 통해 다양한 맞춤형 AI 기능 구현을 가능하게 합니다. 기존 확장 프로그램에서 사용되던 기능을 웹으로 확장하며, 다중 언어 지원과 크로스 브라우저 호환성을 목표로 설계되었습니다. 개발자들은 이 API를 통해 클라우드 의존도를 줄이고, 사용자 디바이스 내에서 효율적인 AI 상호작용을 구현할 수 있습니다.
https://groups.google.com/a/chromium.org/g/blink-dev/c/iR6R7-nQeHI?pli=1
Alexander Inspira IA (@Alex_Inspira)
@Kimi_Moonshot은 Moonshot AI가 개발한 AI 어시스턴트로, 연구, 프로그래밍, 긴 문서 분석, 에이전트 기반 자동화 같은 고급 작업을 지원한다. 특히 매우 큰 컨텍스트 처리 क्षमता와 멀티모달 지원을 내세운 점이 특징이다.

5- @Kimi_Moonshot Es un asistente de IA desarrollado por Moonshot AI diseñado para tareas avanzadas como investigación, programación, análisis de documentos extensos y automatización mediante agentes inteligentes. Destaca por su enorme capacidad de contexto, soporte multimodal
Show HN: Chrome new prompt API demo
Chrome의 새로운 온디바이스 Prompt API를 활용한 데모가 공개되었다. 이 API는 멀티모달 입력을 지원하며, 사용자가 그린 이미지를 모델이 설명하도록 요청할 수 있다. 데모는 Chrome 148 이상, 22GB 이상의 여유 디스크 공간, 4GB 이상의 VRAM을 가진 GPU가 필요하며, 데스크톱 환경에서만 동작한다. GitHub에 소스가 공개되어 있어 AI 개발자가 직접 실험해볼 수 있다.
Z.ai (@Zai_org)
CogViT 비전 인코더의 기술적 핵심을 소개. SigLIP2와 DINOv3를 활용한 듀얼 티처 증류, 마스크드 모델링과 대조학습의 2단계 사전학습, 대규모 학습 안정화를 위한 QK-Norm, 멀티모달 멀티토큰 예측을 설명한다.

Technical highlights: CogViT Vision Encoder - Built with dual-teacher distillation: SigLIP2 for semantics, DINOv3 for texture. A two-stage recipe, masked modeling, then contrastive pretraining, with QK-Norm for attention stability at scale. Multimodal Multi-Token Prediction
Z.ai (@Zai_org)
GLM-5V-Turbo 기술 보고서 공개. 멀티모달 에이전트를 위한 네이티브 파운데이션 모델을 목표로, 모델 설계·멀티모달 학습·강화학습·툴체인 확장·에이전트 프레임워크 통합 측면의 주요 개선점을 정리했다.

GLM-5V-Turbo Tech Report: Toward a Native Foundation Model for Multimodal Agents This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These
Show HN: Gosd: High-performance Stable Diffusion inference in pure Go(no CGO)
gosd는 Go 언어로 작성된 순수 Go 바인딩으로, stable-diffusion.cpp를 기반으로 한 고성능 Stable Diffusion 추론을 지원합니다. CGO 없이 FFI 기반으로 구현되어 Windows, Linux, Mac에서 크로스플랫폼으로 동작하며, C++ 컴파일러 없이 Go 프로젝트에 쉽게 통합할 수 있습니다. 이미지 및 비디오 생성, 편집, 전처리 기능을 제공하며, 여러 모델을 지원합니다. CPU만으로도 실행 가능하지만 GPU 사용 시 속도가 크게 향상됩니다.
https://github.com/l8bloom/gosd
#stablediffusion #go #inference #multimodal #imagegeneration