[Перевод] ИИ-консерва: как мы «взламывали» LLM-модели, чтобы извлечь датасеты и рассуждения

Представьте, что каждая обученная языковая модель — это жёсткий диск, на котором записаны все данные её обучения, но в сжатом и зашифрованном виде. Традиционное взаимодействие с моделью — это как чтение отдельных файлов через не всегда предсказуемый интерфейс. А теперь представьте, что у вас появился инструмент, который позволяет провести дефрагментацию и декомпрессию этого диска, извлекая данные обратно в чистом, структурированном виде. Над созданием такого инструмента — LLM-deflate — автор и работал последнее время.

https://habr.com/ru/companies/bothub/articles/955630/

#llmdeflate #llm #извлечение_датасетов #stanford_alpaca #nvidia_nemotron #qwen3coder #gptoss #llama_3

ИИ-консерва: как мы «взламывали» LLM-модели, чтобы извлечь датасеты и рассуждения

Представьте, что каждая обученная языковая модель — это жёсткий диск, на котором записаны все данные её обучения, но в сжатом и зашифрованном виде. Традиционное взаимодействие...

Хабр
LLM-Deflate: Extracting LLMs Into Datasets

Large Language Models compress massive amounts of training data into their parameters. This compression is lossy but highly effective—billions of parameters can encode the essential patterns from terabytes of text. However, what’s less obvious is that this process can be reversed: we can systematically extract structured datasets from

ScalarLM