データサイエンティスト一年目が学ぶこと | CyberAgent Developers Blog

新卒データサイエンティスト1年目がトレーナーから受けた205の指摘を分類。課題設定・ドキュメント・コミュニケーション・コードの4つの観点から、DS実務で求められる基礎力を紹介します。

CyberAgent Developers Blog

Победить дракона: что общего между Data Science и игрой Dungeons & Dragons

Что общего между броском d20 и проверкой гипотезы? Между походом в таверну за информацией и сбором данных от заказчика? Оказывается, довольно много. Хабр, привет! Меня зовут Вячеслав Демин, я больше пяти лет работаю в сфере Data Science. Сейчас я руководитель направления аналитики данных в Сбере и эксперт на курсе

https://habr.com/ru/companies/yandex_praktikum/articles/1007134/

#днд #dungeons_and_dragons #подземелья_и_драконы #data_science #data_scientist #работа_с_данными #дата_сайенс #анализ_данных

Победить дракона: что общего между Data Science и игрой Dungeons & Dragons

Что общего между броском d20 и проверкой гипотезы? Между походом в таверну за информацией и сбором данных от заказчика? Оказывается, довольно много. Хабр, привет! Меня зовут Вячеслав Демин, я больше...

Хабр

Сравниваю Jupyter Notebook, Google Colab, Kaggle и Marimo глазами исследователя и начинающего Data Scientist

Я пришел в Data Science не сразу. Учился в магистратуре по вечерам, работая в совершенно другой сфере (строительство). Осваивать машинное обучение и анализ данных было интересно, но один из самых неожиданных вопросов, который возник буквально сразу - в какой среде писать код? На первый взгляд кажется, что Jupyter Notebook, Google Colab, Kaggle и сравнительно новая Marimo - это одно и то же, ноутбук с ячейками и Python (так же поддерживаются другие языки программирования). Но на практике каждая из этих сред подходит для разных задач, где-то удобнее учиться, а где-то работать командой. Эта статья - результат моего практического сравнения сред, которое я проводил во время обучения и выполнения исследовательских задач, связанных с анализом и подготовкой данных, моделированием и машинным обучением. Статья будет полезна:

https://habr.com/ru/articles/969090/

#jupyter_notebook #google_colab #kaggle #data_scientist #сравнение #исследователь #опыт

Сравниваю Jupyter Notebook, Google Colab, Kaggle и Marimo глазами исследователя и начинающего Data Scientist

Я пришел в Data Science не сразу. Учился в магистратуре по вечерам, работая в совершенно другой сфере (строительство). Осваивать машинное обучение и анализ данных было интересно, но один из самых...

Хабр

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Знание классики - база любых собеседований на все грейды в DS! Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр , по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают. В этой части разберем: Деревья и ансамбли, метрические модели, кластеризацию кластеризацию Узнать вопросы и ответы на них

https://habr.com/ru/articles/955636/

#data_science #machinelearning #ml #ds #собеседование #деревья_решений #ансамбли #кластеризация #ml_engineer #data_scientist

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Знание классики - база любых собеседований на все грейды в DS! Этот материал не рассчитан на изучение тем с нуля. Это  чеклист и тренажёр , по которому стоит пройтись перед техническим интервью...

Хабр

AI-ассистент в мире кода: как стать пилотом, а не пассажиром

Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное обучение и будущие карьерные перспективы. Меня зовут Дмитрий Махортов, я специалист по машинному обучению и ревьюер на курсе

https://habr.com/ru/companies/yandex_praktikum/articles/944998/

#ds #ai #llm #data_science #data_scientist #нейросети #ии

AI-ассистент в мире кода: как стать пилотом, а не пассажиром

Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное...

Хабр

ML — курсы vs реальность: Где же обещанные цветочки и единороги?

Привет, хабр! 👋 Позвольте представиться: я - Настя, Data Scientist и TeamLead в одной вполне себе серьезной компании (когда чистишь данные в 3 ночи, чувствуешь себя совсем не серьезно, но это детали). Веду свой скромный телеграм-канальчик , где делюсь болью, радостью и абсурдом нашей необъятной профессии. И вот сегодня хочу вынести на ваш суд тему, которая не дает спать спокойно не только мне, но и многим моим коллегам. Помните тот трепетный момент, когда вы только начинали свой путь в Data Science? Я — очень хорошо. Картинка была радужной: ты — повелитель нейросетей, твои модели творят магию, а бизнес-задачи падают к ногам, поверженные точностью в 99.9% (ну или хотя бы 97%). Курсы, будь то знаменитые онлайн-платформы или университетские программы, учат нас прекрасному: бустинги, метрики, градиентный спуск, SVM, k-means, сверточные слои... Это наш фундамент, наш джентельменский набор. И да, именно за этим набором охотятся 90% рекрутеров на собеседованиях. Создается стойкое ощущение, что я и интервьюер одновременно загуглили «Топ-50 вопросов на DS собеседовании» и теперь ритуально их отрабатываем. Ну, must have, что уж тут. Но потом ты выходишь из уютного мира clean data и идеальных датасетов в дикие джунгли реального проекта. И здесь начинается магия настоящей работы. Та самая, про которую не снимают вдохновляющие ролики. А порой многие именно тут и бросают этот, казалось бы увлекательный и перспективный карьерный путь в мир ML... Читать и обсудить...

https://habr.com/ru/articles/942558/

#курсы #data_science #machinelearning #ml #data_scientist_career #data_scientist #машинное_обучение #стажировка #классификация #хакатон

ML — курсы vs реальность: Где же обещанные цветочки и единороги?

Привет, хабр! 👋 Позвольте представиться: я - Настя, Data Scientist и TeamLead в одной вполне себе серьезной компании (когда чистишь данные в 3 ночи, чувствуешь себя совсем не серьезно, но это детали)....

Хабр

Новые темы и фокус на практике: как изменился курс по Data Science в Яндекс Практикуме

Курс

https://habr.com/ru/companies/yandex_praktikum/articles/938956/

#data_science #дата_сайенс #data_scientist #анализ_данных

Новые темы и фокус на практике: как изменился курс по Data Science в Яндекс Практикуме

Курс «Специалист по Data Science» — один из первых в Яндекс Практикуме. Он запустился в 2019 году — за это время рынок и требования работодателей поменялись, а значит, должны меняться и учебные...

Хабр

РосНОУ повысил свои позиции в рейтинге вузов-лидеров ИИ

Альянс в сфере искусственного интеллекта опубликовал третий ежегодный рейтинг российских университетов, готовящих специалистов для ИИ-отрасли. В этом году в список вошли 203 вуза из 68 регионов страны.

https://habr.com/ru/articles/934646/

#высшее_образование #рейтинги_вузов #российский_новый_университет #itтехнологии #подготовка_кадров #образовательные_программы #образовательные_ресурсы #data_engineering #data_analysis #data_scientist

РосНОУ повысил свои позиции в рейтинге вузов-лидеров ИИ

Альянс по искусственному интеллекту опубликовал третий ежегодный рейтинг российских университетов, готовящих специалистов для ИИ-отрасли. В этом году в список вошли 203 вуза из 68 регионов страны....

Хабр

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

https://habr.com/ru/companies/kryptonite/articles/902872/

#spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы...

Хабр

Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

https://habr.com/ru/companies/data_light/articles/860310/

#data_science #generative_models #data_scientist #data_engineering

Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light,...

Хабр