[Перевод] ИИ-консерва: как мы «взламывали» LLM-модели, чтобы извлечь датасеты и рассуждения
Представьте, что каждая обученная языковая модель — это жёсткий диск, на котором записаны все данные её обучения, но в сжатом и зашифрованном виде. Традиционное взаимодействие с моделью — это как чтение отдельных файлов через не всегда предсказуемый интерфейс. А теперь представьте, что у вас появился инструмент, который позволяет провести дефрагментацию и декомпрессию этого диска, извлекая данные обратно в чистом, структурированном виде. Над созданием такого инструмента — LLM-deflate — автор и работал последнее время.
https://habr.com/ru/companies/bothub/articles/955630/
#llmdeflate #llm #извлечение_датасетов #stanford_alpaca #nvidia_nemotron #qwen3coder #gptoss #llama_3