Everyone knows #git, but I think people should get to know #dvc as well.
Dvc or data version control system is basically a git, but for asset storage.
It works together with git and requires almost no setup.
Title: P5: I have been read DVC documentation [2023-11-15 Wed]
- metrics :: feature of 'experiments' - allow compare results.
- cache :: hidden storage .dvc/cache

😶\n#supported #datascience #ds #ml #machinelearning #dvc #data
Title: P4: I have been read DVC documentation [2023-11-15 Wed]
(considered outdated) when any of their dependencies change.
- https://dvc.org/doc/user-guide/data-management/remote-storage#supported-storage-types
- output :: result of stage, tracked by DVC.
- parameters :: granular dependencies of stage, such as 'batch size', DVC can track any key/value pair in a supported
parameters file (params.yaml by default)\n#supported #supported #datascience #ds #ml #machinelearning #dvc #data
Remote Storage

Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments.

Data Version Control · DVC
Title: P3: I have been read DVC documentation [2023-11-15 Wed]
- DVC remotes :: similar to Git remotes, used with /dvc push/ and /dvc pull/ commands. To add: /dvc remote/ to .dvc/config.
- stage :: processing step of pipeline. allow connecting code to its corresponding data input/dependencies and output.
- dependencies :: input for a stage. specified as paths in the dev field of '.dvc'. Stages are invalidated\n#supported #datascience #ds #ml #machinelearning #dvc #data
Title: P2: I have been read DVC documentation [2023-11-15 Wed]
- Model validation: for example, input/output and performance validation — all dependencies present for
inference to run, and model scores within thresholds.
✧ ❂ ❉ ✯ ✵
Terms:
- data registry :: git + dvc repository - for versioning of data and model files. The data itself is stored in
one or more /DVC remotes/\n#supported #datascience #ds #ml #machinelearning #dvc #data

Title: P1: I have been read DVC documentation [2023-11-15 Wed]
- allow to create pipiline, fix input and outputs, allow to avoid reruns.
- DVCLive tool for experiment tracking
- allow to create development server with shared and cached data, chached data may be shared between projects.

allow:
- Data validation: for example, validation against a schema or verifying pipeline consistency — correct
shapes, data types, etc.\n#supported #datascience #ds #ml #machinelearning #dvc #data

Title: P0: I have been read DVC documentation [2023-11-15 Wed]
Main features and terms of DVC from my notes:

DVC fetch data from external storages, codify data/models and provide reproducible pipelines.

features:
- allow to download data from supported sources and keep hash of files.
- versioning through codification - metafiles describing: datasets, ML artifacts, etc. to track.\n#supported #datascience #ds #ml #machinelearning #dvc #data

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в воспроизводимый, наблюдаемый и масштабируемый пайплайн — от сырых данных до стабильного инференса под реальной нагрузкой. Kubernetes давно стал де-факто стандартом для этой работы: более 70% компаний используют его в продакшене — это не дань хайпу, это прагматичный выбор тех, кто уже наступал на грабли. В этой статье разберем, почему K8s выигрывает у альтернатив именно для ML-нагрузок, а также обсудим какие мифы и анти-паттерны тормозят команды на пути к продакшену. Пройдемся по полному стеку: от подготовки кластера и фиксации данных через DVC до canary-деплоя модели и автоскейлинга GPU-подов. В конце вас ждет взгляд на то, куда движется индустрия: serverless-ML, multi-LLM-ops и edge-развертывания. Если вы DevOps- или MLOps-инженер, которому приходится запускать обучение и инференс в одном кластере, или R&D-инженер, чьи модели «магически ломаются» при переходе в прод — читать обязательно.

https://habr.com/ru/companies/cloud_ru/articles/1011810/

#Kubernetes #MLOps #ML_pipeline #KServe #TFX #DVC #HPA #Prometheus #Grafana #DevOps

ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в...

Хабр

Как превратить хаотичный ML-проект в систему: пошаговый гайд по DVC + GitHub Actions

Пора строить систему, которая собирается за вечер на двух инструментах: DVC и GitHub Actions . Этот пост - пошаговый гайд , как превратить хаос в полноценный CI/CD‑пайплайн. Без кубернетесов, без сложной инфраструктуры. Зато с автоматизацией, воспроизводимостью и твоим спокойствием :) Начнем ↓ ⠀⠀

https://habr.com/ru/articles/973268/

#ml #data_science #базы_данных #devops #машинное_обучение #dvc #github_actions #mlops #воспроизводимость #python

Как превратить хаотичный ML-проект в систему: пошаговый гайд по DVC + GitHub Actions

Если ваш эксперимент нельзя воспроизвести командой  git checkout && dvc pull , а model_final_v2_new.pth - норма, у вас проблема с ML-инженерией. Дело в воспроизводимости , которую вы...

Хабр
DVCをSageMakerのトレーニングジョブで利用する方法 - Qiita

背景 最近、 DVC を使ってデータセットをバージョン管理している環境で、Amazon SageMaker (以下SageMaker) を使ったトレーニングを行う機会がありました。 DVCをSageMakerで使うやり方がいまいちよくわかっていなかったので、調べた結果を備...

Qiita