Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

Просишь локальную модель оцифровать таблицу с картинки — а она часть чисел тихо выдумывает. Да так гладко, что беглым взглядом не заметишь. Большая Gemma на мыльном скрине сочинила целую строку зарплат, а крошечная GLM-OCR на 0.9B ту же строку прочитала верно. Собрал из двух моделей один пайплайн и разобрался, где кому верить.

https://habr.com/ru/articles/1044522/

#GLMOCR #OCR #Gemma_4 #llamacpp #локальные_LLM #мультимодальные_модели #извлечение_данных_из_таблиц #распознавание_документов #пайплайн_моделей #MacBook_M3

Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

В первой части локальная Gemma 4 на мыльной таблице сочинила целую строку зарплат, а на гигантской — насыпала гладких круглых тысяч вместо реальных чисел....

Хабр

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 ГБ, никакого облака. Поставил свежую Gemma 4, написал инструмент: кидаешь картинку с графиком или таблицей — получаешь CSV. Три кейса из семи — идеально. На остальных модель начала врать, причём аккуратнее, чем говорила правду: вместо рваных реальных чисел подсовывала гладкие выдуманные. Разобрал по шагам — сетап на маке, грабли с llama.cpp, сам инструмент — и собрал карту, где локальному зрению можно верить, а где оно тихо галлюцинирует

https://habr.com/ru/articles/1044400/

#Gemma_4 #llamacpp #локальные_LLM #мультимодальные_модели #OCR #извлечение_данных_из_графиков #visionмодели #MacBook_M3 #GGUF #визуализация_данных

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально. На четвёртом модель начала врать. И врать...

Хабр