Xiaomin Yu (@XiaominY72213)

이 연구는 텍스트 데이터만으로 MLLM(멀티모달 대형 언어 모델)을 프리트레이닝하는 방법을 제안하며, 모달리티 간 격차(modality gap) 현상을 활용해 성능을 향상시키는 접근법을 탐구한다. 관련 논문은 Arxiv에 등록되어 있으며, Github에 소스 코드가 공개되어 있어 연구 재현성과 확장 가능성이 높다.

https://x.com/XiaominY72213/status/2025892849783541844

#mllm #research #pretraining #multimodal #ai

Xiaomin Yu (@XiaominY72213) on X

Pretraining MLLMs using only text data. Our work explores the modality gap phenomenon and uses it to pretrain MLLMs with pure text data. Related links: Arxiv: https://t.co/T7lnNr4u1d Github: https://t.co/eORHxAv1Sj

X (formerly Twitter)

UniGen 1.5: el modelo de IA de Apple que puede ver, crear y editar imágenes

#MLLM #ML #AI

https://mecambioamac.com/unigen-1-5-el-modelo-de-ia-de-apple-que-puede-ver-crear-y-editar-imagenes/

UniGen 1.5: el modelo de IA de Apple que puede ver, crear y editar imágenes

El equipo de investigadores de IA de Apple presentan UniGen 1.5: un MLLM unificado para la comprensión, generación y edición avanzada de imágenes.

mecambioaMac

Chào mọi người! Công cụ thay thế cục bộ **Super-Bot** vừa được ra mắt: tự viết và chạy mã (Python), tự phục hồi lỗi khi crash, kiểm tra trực quan qua ảnh chụp màn hình. Thử thành công với Ray Tracer và game Snake. Mua một lần thay vì đăng ký hàng tháng! Ý kiến bạn về AI cục bộ vs đám mây?
#AgentStudio #SuperBot #AI #MLLM #ĐạiLýTựĐộng #CôngNghệViệt

https://www.reddit.com/r/LocalLLaMA/comments/1ponuog/agent_studio/

Не все чувства одинаково полезны: как искусственный интеллект объединяет информацию из разных источников

Новое исследование показывает, что мультимодальные модели искусственного интеллекта неравномерно полагаются на визуальные и текстовые данные, что может приводить к ошибкам при обработке противоречивой информации.

https://habr.com/ru/articles/973866/

#kandinsky #gigachat #mllm #сезон_ии_в_разработке

Не все чувства одинаково полезны: как искусственный интеллект объединяет информацию из разных источников

Новое исследование показывает, что мультимодальные модели искусственного интеллекта неравномерно полагаются на визуальные и текстовые данные, что может приводить к ошибкам при обработке противоречивой...

Хабр

Why AI Sucks At Telling Time... and why this should concern us for autonomous vehicles and more.

#News #TechNews #AI #MLLM #AIlimitations #SelfDriving #MedTech

https://youtu.be/t2Cn0zGRkME

Why AI Sucks At Telling Time...

YouTube

Daily podcast: Why AI Sucks At Telling Time... and why this should concern us for autonomous vehicles and more.

#News #TechNews #AI #MLLM #AIlimitations #SelfDriving #MedTech #podcast

https://soundcloud.com/nickaesp/acr

Why AI Sucks At Telling Time...

and why this should concern us for autonomous vehicles and more.

SoundCloud

Kết quả test nhanh cho thấy việc sử dụng Oculink eGPU không gây ảnh hưởng tiêu cực đến hiệu năng khi chạy các dự án LLM cục bộ. Thậm chí, việc kết hợp RTX 3090 qua Oculink với RTX A6000 còn mang lại hiệu suất đáng kể.

#LocalLLaMA #eGPU #Oculink #AI #MLLM #gpu #vietnam
#trítuệnhântạo #máytính

https://www.reddit.com/r/LocalLLaMA/comments/1oqe1kq/no_negative_impact_using_oculink_egpu_a_quick_test/

BDH (Baby Dragon Hatchling) đã được port sang MLX cho Apple Silicon! 🚀 Mã nguồn, tài liệu và script huấn luyện đã sẵn sàng. Model này tương thích với M1/M2/M3. Weights sẽ sớm được upload lên Hugging Face.

#LocalLLaMA #MachineLearning #AI #MLLM #HọcMáy #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1o108q5/mlx_port_of_bdh_baby_dragon_hatchling_is_up/

Ước tính chi phí sử dụng token của OpenAI: 1T tokens cho GPT-5 có thể tốn khoảng 3 triệu đô la. Một số lượng lớn người dùng đã tiêu thụ tổng cộng 112,62 triệu đô la tokens, chiếm khoảng 3% doanh thu năm 2024 của OpenAI.
#OpenAI #GPT5 #AI #MLLM # trí_tuệ_nhân_tạo

https://www.reddit.com/r/LocalLLaMA/comments/1o0or4w/how_much_does_1t_tokens_cost_how_much_did_all/