Как мы ускорили сжатие данных: эксперименты с эвристиками

Хранение 1 ГБ данных в облаке стоит от 2 до 12 рублей. Можно ждать, пока диски подешевеют, а можно сжать данные и получить «бесплатный» апгрейд хранилища. Но если вы храните данные в облаке, сжимать все подряд — как пытаться загрузить стиральную машинку не глядя: льняные брюки могут сесть в 5 раз и освободить место, но если кинуть в барабан кирпич, меньше он не станет, зато вы получите грохот, счет за электричество, недовольных соседей и возможно — сломанную машинку. Чтобы не потратить кучу CPU с сомнительным результатом, мы у себя в команде R&D Узнать больше

https://habr.com/ru/companies/cloud_ru/articles/936666/

#сжатие #компрессия #блочное_хранилище #хранение_данных #оптимизация_хранения #эвристики #cpu #экономия

Как мы ускорили сжатие данных: эксперименты с эвристиками

Хранение 1 ГБ данных в облаке стоит от 2 до 12 рублей. Можно ждать, пока диски подешевеют, а можно сжать данные и получить «бесплатный» апгрейд хранилища. Но если вы храните данные в облаке, сжимать...

Хабр

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать текст, превышающий определённое число токенов. Это накладывает ограничения на работу с длинными документами и обширным контекстом. Но что если бы мы могли упаковать длинный текст в один-единственный вектор и скормить его модели как обычный токен? Звучит фантастично, однако свежие исследования показывают, что это возможно – такие “mem-векторы” позволяют сохранить сотни и даже полторы тысячи токенов информации в одном эмбеддинге. Это принципиально иной подход, нежели классическое сжатие данных, и он сулит интересные применения. Mem-вектор (от “memory vector”) – это специально обученный вектор, который хранит содержание целого текста. Идея в том, что если модель умеет предсказывать текст, то можно подобрать такой вектор на входе, при котором замороженная (неизменяемая) LLM сама декодирует исходный текст . Иначе говоря, mem-вектор играет роль «семени», из которого предобученная модель порождает заложенное в нём сообщение. В этой статье разберём, как это работает, почему вообще возможно “запихнуть” роман в один вектор и какие ограничения при этом появляются. Также сравним mem-подход с классическими алгоритмами сжатия (Huffman, арифметическое кодирование, zlib и др.), обсудим последние научные работы на эту тему и возможные применения: от Retrieval-Augmented Generation (RAG) до передачи новых знаний замороженным моделям. Центральная мысль: mem-векторы – это не просто компрессия текста, а способ напрямую скормить модели смысл и знания, минуя последовательное чтение токенов . Разбираемся далее

https://habr.com/ru/articles/906592/

#memвектор #llm #энтропия_текста #компрессия #RAG #embedding #hidden_capacity #NLP

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

От сжатия текста к mem-векторам: новая веха в языковых моделях Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать...

Хабр

Техникум: Автоматическое Aрхивирование Aртефактов

В программировании микроконтроллеров на выходе получается довольно много артефактов. Всё это надо как-то связать и заточить в архив, чтобы всегда можно было ассоциировать *.hex с нужным для него *.map и *.elf. Логичным шагом будет являться архивация всех этих файликов в *.tar архив. Также один архив очень удобен при транспортировке программного обеспечения. В этом тексте я написал как это можно сделать средствами GNU Make.

https://habr.com/ru/articles/826730/

#tar #архивирование #компрессия #devops #bin #hex #elf #windows #tool_chain #cmd

Техникум: Автоматическое Aрхивирование Aртефактов

Эскизный проект того, что надо соорудить В программировании микроконтроллеров на электронных платах на выходе всегда получается довольно много артефактов. Это прошивка, документация, отладочная инфа....

Хабр