"Đội nhóm cần tìm VLM nhỏ, tinh chỉnh được, hoạt động tốt trên thiết bị địa phương, đặc biệt hiểu tốt biểu đồ. Đang cân nhắc Qwen3-VL-7B nhưng bị giới hạn tài nguyên (GPU 3090 duy nhất). Ai có kinh nghiệm chia sẻ! #VLM #AI #BiểuĐồ #HọcMáy #MachineLearning"

https://www.reddit.com/r/LocalLLaMA/comments/1pqf2pk/small_vlms/

Một nhà phát triển đang tìm cách hiệu quả nhất để phát hiện và xoay các trang tài liệu bị lệch (90/180 độ) trước khi đưa vào mô hình VLM cục bộ để phân tích. Tài liệu chủ yếu chứa văn bản và bảng biểu. Có giải pháp nào tối ưu không?

#VLM #DocumentProcessing #ImageRotation #AI #LocalLLaMA #XửLýTàiLiệu #XoayẢnh #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1pku9qo/most_efficient_way_to_classify_rotated_images/

RAGLight vừa ra mắt tính năng mới: Xử lý PDF đa phương thức! Giờ đây, công cụ có thể trích xuất cả văn bản và hình ảnh từ PDF, dùng mô hình ngôn ngữ thị giác (VLM) để chú thích ảnh và đưa vào kho vector. Giúp RAG hiểu sâu hơn các biểu đồ, sơ đồ trong tài liệu kỹ thuật, nghiên cứu.
#RAGLight #MultimodalPDF #VLM #AI #TechNews #PDFProcessing #RAG #Ollama
#RAGLight #PDFĐaPhươngThức #VLM #AI #TinCôngNghệ #XửLýPDF

https://www.reddit.com/r/ollama/comments/1pe0s1q/new_feature_in_raglight_multimodal_pdf

yzma 1.0 beta1 is out!

Use Go for hardware accelerated local inference with llama.cpp directly integrated into your applications. No external model servers or CGo.

Go get it right now!

https://github.com/hybridgroup/yzma

#golang #llama #vlm #llm #local #gpu

GitHub - hybridgroup/yzma: Go for hardware accelerated local inference with llama.cpp directly integrated into your applications

Go for hardware accelerated local inference with llama.cpp directly integrated into your applications - hybridgroup/yzma

GitHub

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

https://habr.com/ru/articles/966846/

#ocr #распознавание_текста #vlm #llm #мультимодальные_модели #qwen3 #gemma3 #paddleocr

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с...

Хабр

La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар

Если вам интересен мир ИИ и вы хотите не просто делать fit, predict на удаленной ВМ, а изучать что-то локально, экспериментировать и упрощать себе жизнь, запуская модели прямо на своем девайсе — скорее всего, вам понадобится достаточно мощное железо. Эта статья - попытка ответить на вопрос эффективности железа для популярных AI задач: LLM, VLM, эмбэддинги. Она будет полезна как ML/AI Инженерам, так и просто Энтузиастам, которые выбирают себе железо для локального инференса gpt-oss .

https://habr.com/ru/articles/966654/

#бенчмарк #ai #llm #vlm #embeddings #opensource #localai #mlx #cuda #mps

La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар

Интро Если вам интересен мир ИИ и вы хотите не просто делать fit, predict на удаленной ВМ, а изучать что-то локально, экспериментировать и упрощать себе жизнь, запуская модели прямо на своем девайсе —...

Хабр

"Captions With Attitude" in your browser from your webcam generated by a Vision Language Model (VLM) from a Go program running entirely on your local machine using llama.cpp!

https://github.com/hybridgroup/captions-with-attitude

#golang #vlm #openCV #llama #yzma

GitHub - hybridgroup/captions-with-attitude: "Captions With Attitude" in your browser from your webcam generated by a Vision Language Model (VLM) from a Go program running entirely on your local machine using llama.cpp!

"Captions With Attitude" in your browser from your webcam generated by a Vision Language Model (VLM) from a Go program running entirely on your local machine using llama.cpp! - hybridgrou...

GitHub

Life comes at you fast, and so do new releases of yzma!

Use pure Go for hardware accelerated local inference on Vision Language Models & Tiny Language Models.

0.9.0 out now with API improvements, model downloading, & more.

https://github.com/hybridgroup/yzma

#golang #llama #vlm #tlm

GitHub - hybridgroup/yzma: Go for hardware accelerated local inference with llama.cpp directly integrated into your applications

Go for hardware accelerated local inference with llama.cpp directly integrated into your applications - hybridgroup/yzma

GitHub

Тело AI-агентов: технический обзор робота 1X Neo

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям. Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

https://habr.com/ru/articles/963020/

#neo #гуманоидные_роботы #robotics #ai #ml #1x_neo #роботы #vlm #llm #aiагенты

Тело AI-агентов: технический обзор робота 1X Neo

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого...

Хабр

yzma 0.8.0 is out, now with over 87% coverage of the llama.cpp API from pure Go! More robust, more examples.

Go get it right now!

https://github.com/hybridgroup/yzma

#golang #llamacpp #vlm #slm #tlm

GitHub - hybridgroup/yzma: Go for hardware accelerated local inference with llama.cpp directly integrated into your applications

Go for hardware accelerated local inference with llama.cpp directly integrated into your applications - hybridgroup/yzma

GitHub