Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

Установка и эксплуатация приложений Spark в облаке зачастую становятся препятствием для дата-инженеров (Data Engineer, DE): сложная работа с Helm-конфигурациями отвлекает внимание от анализа данных и замедляет подготовку среды. Но полностью отказываться от Spark зачастую нерационально, поэтому многие команды стремятся найти свое решение для обхода существующих сложностей. Привет, Хабр. Меня зовут Юрий Орлов. Я руководитель команды разработки ML Platform в VK Tech. В этой статье я расскажу о том, как мы автоматизировали развертывание Spark в облаке и создали клиент на Python, который снижает требования к знаниям в области DevOps и Kubernetes, необходимым для начала работы со Spark.

https://habr.com/ru/companies/vktech/articles/966586/

#vk_cloud #spark #ml_platform #vk_tech #k8s #kubernetes #машинное_обучениe #python #Apache_Livy #apache

Простой Python, автоматический Spark: минус Kubernetes, плюс продуктивность

Установка и эксплуатация приложений Spark в облаке зачастую становятся препятствием для дата-инженеров (Data Engineer, DE): сложная работа с Helm-конфигурациями отвлекает внимание от анализа данных и...

Хабр

Сказ о том, как сделать самый большой флот автономных грузовиков в России с нуля…

Сегодня достаточно скачать с GitHub-a открытый стек автопилота, прикрутить пару камер или лидаров с AliExpress к небольшой электрической платформе, прокатить ее по парковке — и проект уже называют «автономным». Но заставить машину без водителя в реальных условиях выполнять задачи бизнеса, например, перевозить тонны груза в -30 °C и +50 °C, и, при этом, зарабатывать деньги — это совсем другая лига, где сходят с дистанции даже стартапы с сотнями миллионов долларов инвестиций. Я — Дмитрий Куликов, последние 2,5 года руковожу разработкой ПО в Evocargo. Мы с нуля разрабатываем, проектируем, производим и внедряем автономные электрогрузовики максимально высокого на сегодня серийно-эксплуатируемого уровня автономности. Уже 5 лет они работают на десятках коммерческих объектов по всей России. Как пробиться в лигу успешных проектов в автономном вождении, как мы приняли решение строить собственную платформу и почему Маск всё ещё не прав — расскажу в этой статье. К сказу...

https://habr.com/ru/companies/evocargo_it/articles/967066/

#автономный_транспорт #автономная_логистика #грузоперевозки #компьютерное_зрение #искусственный_интеллект #машинное_обучениe #робототехника #инженерные_решения

Сказ о том, как сделать самый большой флот автономных грузовиков в России с нуля…

Сегодня достаточно скачать с GitHub-a открытый стек автопилота, прикрутить пару камер или лидаров с AliExpress к небольшой электрической платформе, прокатить ее по парковке — и проект уже называют...

Хабр

SemantML. Семантическая нейродинамика

Введение: Кризис смысла в эпоху больших данных Начну немножко издалека. Мы живем в парадоксальное время. Искусственный интеллект окружает нас повсюду: он пишет тексты, рисует картины, решает сложные задачи. Но за этим фасадом цифрового всемогущества скрывается фундаментальная, почти метафизическая проблема: наши самые продвинутые модели не понимают ровным счетом ничего. Те, кто сколько-либо погружен в сферу ML, это прекрасно знают. Представьте библиотеку, где каждый книга идеально описана, проиндексирована и взаимосвязана, но нет ни одного читателя, способного понять смысл написанного. Это - точная метафора современного ИИ. GPT-4, Gemini, Claude - это блестящие имитаторы, статистические попугаи, оперирующие символами без малейшего представления об их значении. Они могут рассуждать о физических явлениях, но не понимать их, анализировать метафоры, но не схватывают их суть, генерировать тексты о боли и радости, оставаясь абсолютно пустыми внутри. Этот разрыв между формой и содержанием, между синтаксисом и семантикой, является последним крупным барьером на пути к настоящему искусственному интеллекту. Но, возможно, есть решение как это обойти. Что если вместо того, чтобы заставлять машины имитировать мышление, создать для них среду, где мышление возникает естественно - как возникают волны в океане или мысли в человеческом мозге? SemantML: От статистики к семантической нейродинамике Хочу вас познакомить с проектом под названием SemantML - радикально новый подход к созданию ИИ, который отказывается от парадигмы "обучения на текстах" в пользу "мышления в смыслах". Гипотеза проста и одновременно нова: сознание - это не алгоритм, а динамический процесс в семантическом пространстве, и чтобы создать искусственный разум, нужно сначала создать для него "дом" - среду, где могут рождаться и взаимодействовать смыслы.

https://habr.com/ru/articles/964834/

#ии #семантика #нейросети #машинное_обучениe #python #физическая_модель #волновая_функция #нейродинамика

SemantML. Семантическая нейродинамика

Как можно сконструировать искусственный интеллект, который действительно понимает Введение: Кризис смысла в эпоху больших данных Начну немножко издалека. Мы живем в парадоксальное время. Искусственный...

Хабр

Вебинары трека Наука о данных Летней цифровой школы Сбера

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

https://habr.com/ru/articles/935564/

#машинное_обучениe #искусственный_интеллект #data_science #data_analysis #ai #artificial_intelligence #ии #нейросети #нейронные_сети #глубокое_обучение

Вебинары трека Наука о данных Летней цифровой школы Сбера

Вебинары трека Наука о данных Летней цифровой школы Сбера Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и...

Хабр

[Перевод] ML Q & AI. Глава 3. Few-Shot Learning

Что такое few-shot learning (обучение, FSL)? Чем оно отличается от традиционной процедуры обучения с учителем? Few-shot обучение представляет собой особый вид обучения с учителем для небольших тренировочных датасетов с очень низким отношением количества примеров на класс. В традиционном обучении с учителем модель тренируется, пробегаясь по тренировочному сету, при этом она всегда видит один и тот же фиксированный набор классов. В few-shot обучении мы работаем с опорным множеством, из которого формируем несколько тренировочных заданий. Из этих заданий мы собираем тренировочные эпизоды, где каждое тренировочное задание состоит из различных классов.

https://habr.com/ru/articles/927868/

#перевод #машинное_обучениe #глубинное_обучение #нейросети

ML Q & AI. Глава 3. Few-Shot Learning

Что такое few-shot learning (обучение, FSL)? Чем оно отличается от традиционной процедуры обучения с учителем? Few-shot обучение представляет собой особый вид обучения с учителем для небольших...

Хабр

Большое продуктовое расследование. Так что же на самом деле делает Мира Мурати?

Деньги любят тишину. Бывшая CTO Open AI Мира Мурати подняла еще 2 млрд $ на seed-раунде при оценке стартапа в 12 млрд $, при этом никто не знает, а чем собственно они занимаются в Thinking Machines Lab?

https://habr.com/ru/articles/928402/

#llm #ии #стартапы #технологии #бизнеслогика #продукты #машинное_обучениe #дайджест

Большое продуктовое расследование. Так что же на самом деле делает Мира Мурати?

Деньги любят тишину. Бывшая CTO Open AI Мира Мурати подняла еще 2 млрд $ на seed-раунде при оценке стартапа в 12 млрд $, при этом никто не знает, а чем собственно они занимаются в Thinking Machines...

Хабр

Агенты и Агентная Экономика

Большой Дайджест Недели. 14.07.25 Минимум новостей, максимум инсайтов. => Коммент на космические зарплаты Цукерберга для ИИ-инженеров => Битва вайб-кодеров , но-кодеров, лоу-кодеров и программистов только разгорается => На Poly Market ставка всего 26%, что GPT-5 появится в июле. Проголосуйте и вы, узнаем что думает по этому поводу Хабр. => Настоящая ценность LLM это архитектура агентов ..."будет много багов, но не бросайте, думаю, эта штука останется."

https://habr.com/ru/articles/926760/

#искусственный_интеллект #агентная_экономика #ииагенты #ииассистенты #дайджест #машинное_обучениe #бизнесмодели #будущее #научнопопулярное

Агенты и Агентная Экономика

Большой Дайджест Недели. 14.07.25 Дайджест по материалам зарубежных медиа. Минимум новостей, максимум инсайтов. => Каждый сделал свой ход, очередь за OpenAI Обычно я не пишу про...

Хабр

Как мы построили свой инструмент для работы с LLM

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ? Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста. С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое. Общий процесс создания языковой модели для перевода выглядит так: 1) Предобработка данных: этап подготовки данных перед обучением модели. 2) Фильтрация с использованием структурных и семантических фильтров. 3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка. 4) Тегирование для классификации данных. 5) Загрузка общего набора данных в Data Studio для проверки. 6) Создание данных для валидации и тестирования модели. 7) Обучение модели.

https://habr.com/ru/articles/924174/

#машинное_обучениe #инструментарий #llm #llmмодели #искусственный_интеллект #языковые_модели #large_language_model #большие_языковые_модели #ai #обработка_данных

Как мы построили свой инструмент для работы с LLM

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи. В этой статье я бы хотел рассказать...

Хабр

Как мы научились прогнозировать грозы на карте осадков в Яндекс Погоде

Экстремальные погодные явления оказывают большое влияние на нашу жизнь. Это может проявляться в бытовых вещах, просто чтобы не попасть под сильный ливень или грозу. А ещё — в обеспечении бизнеса. Например, в прошлом году в Европе из‑за града погиб один из самых старых виноградников. Именно поэтому мы решили улучшить наш прогноз экстремальных погодных явлений. Прежде всего мы сфокусировались на суперкраткосрочном прогнозе молний на карте осадков, также известной как наукаст, чтобы расширить нашу технологию прогнозирования погоды Meteum. Таким образом мы стали первыми в России, кто сделал карту наукаста гроз на ближайшие два часа с шагом 10 минут. Дело в том, что экстремальные погодные явления часто связаны с конвективными явлениями в атмосфере, которые сложно прогнозировать на долгий срок. То есть если в прогнозе есть гроза, то часто вместе с ней будет ожидаться сильный дождь и ветер, а в некоторых регионах и град. Меня зовут Пётр Вытовтов. Я руководитель группы ML и качества прогноза в Яндекс Погоде. Сегодня я хочу рассказать вам о том, как мы добавляли прогноз молний в нашу модель наукаста с использованием данных со спутников, метеорологических радаров и применением трансформерных моделей.

https://habr.com/ru/companies/yandex/articles/919492/

#погода #прогноз_погоды #ml #машинное_обучениe #наукастинг

Как мы научились прогнозировать грозы на карте осадков в Яндекс Погоде

Экстремальные погодные явления оказывают большое влияние на нашу жизнь. Это может проявляться в бытовых вещах, просто чтобы не попасть под сильный ливень или грозу....

Хабр

Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов

Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные. Важно учитывать, что агрегирование упрощает анализ , но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования ...

https://habr.com/ru/companies/cinimex/articles/900738/

#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное+обучение #машинное_обучениe

Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов

Мы продолжаем погружаться в тему создания пространственных признаков. Если вы пропустили предыдущие части, рекомендую начать с первой статьи о базовых принципах работы с геоданными, а затем перейти ко...

Хабр