От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей. Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

https://habr.com/ru/articles/975082/

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy #statistics #feature_engineering

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Обезьянья предобработка данных Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart» . Обезьянья работа - это когда ты что-то делаешь на автомате, не включая мозг...

Хабр

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.

https://habr.com/ru/companies/wildberries/articles/972082/

#рекомендации #рекомендательные_системы #deep_learning #machine_learning #bert4rec #абтесты #recsys #маркетплейс #wildberries #data_science

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в...

Хабр
Poems Can Trick AI Into Helping You Make a Nuclear Weapon

It turns out all the guardrails in the world won’t protect a chatbot from meter and rhyme.

WIRED

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

https://habr.com/ru/articles/972898/

#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что...

Хабр

Нужно ли аналитику данных машинное обучение — и как его освоить

Нужно ли аналитику машинное обучение? Ответ неоднозначный: всё зависит от места работы и планов в профессии. Меня зовут Раф, я аналитик ценообразования в Авито (а раньше в Яндекс Лавке), преподаватель машинного обучения в Центральном университете, выпускник факультета компьютерных наук в НИУ ВШЭ и курса

https://habr.com/ru/companies/yandex_praktikum/articles/966660/

#аналитика #анализ_данных #машинное_обучение #ml #machine_learning #датааналитика #датааналитик

Нужно ли аналитику данных машинное обучение — и как его освоить

Нужно ли аналитику машинное обучение? Ответ неоднозначный: всё зависит от места работы и планов в профессии. Меня зовут Раф, я аналитик ценообразования в Авито (а раньше в Яндекс Лавке), преподаватель...

Хабр

AI Routing Lab: машинное обучение для оптимизации сетевых маршрутов

Каждый маршрут ведет себя по-разному в зависимости от времени суток, загрузки сети, погоды (да, это влияет на спутниковые каналы) и других факторов. Традиционная маршрутизация выбирает путь на основе метрик BGP (AS Path, MED), но эти метрики не учитывают реальную задержку и джиттер.

https://habr.com/ru/articles/970630/

#Network_Routing #machine_learning #AI_Routing #quic #Network_Optimization #CloudBridge_Research #Open_Source #Jitter_Prediction

AI Routing Lab: машинное обучение для оптимизации сетевых маршрутов

Статья подготовлена в рамках исследовательского проекта CloudBridge Research, посвященного применению ML для оптимизации сетевых протоколов. Проект: github.com/twogc/ai-routing-lab Вы, возможно,...

Хабр

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

https://habr.com/ru/articles/968626/

#yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого...

Хабр

AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek

AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek Сравнение четырёх ведущих AI-инструментов 2025: Perplexity, ChatGPT, Gemini и DeepSeek. Анализ точности, безопасности, цены и оптимальных сценариев использования. Выбираем инструмент для вашей роли: исследователи, разработчики, data scientists и контент-мейкеры. Практические рекомендации и таблицы сравнения ключевых метрик.

https://habr.com/ru/articles/965390/

#AI #ChatGP #Perplexity #deepseek #Gemini #machine_learning #LLM

AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek

🎯 Резюме: Кто лучше? Инструмент Оценка Сильная сторона Perplexity AI 4.20/5 Точность + RAG архитектура ChatGPT 3.85/5 MoE + GPT-4o мультимодальность DeepSeek 3.75/5 MoE эффективность + бесплатно...

Хабр

At the Workshop on Geometry, Topology, and Machine Learning #GTML2025 , Anna Gilbert describes a whole field in #machine_learning that used problem atic benchmarks. When she tried to replicate the results, her team shows that usual NN were able to outperform the most advanced architectures in the field.

https://arxiv.org/abs/2412.06173

Revisiting the Necessity of Graph Learning and Common Graph Benchmarks

Graph machine learning has enjoyed a meteoric rise in popularity since the introduction of deep learning in graph contexts. This is no surprise due to the ubiquity of graph data in large scale industrial settings. Tacitly assumed in all graph learning tasks is the separation of the graph structure and node features: node features strictly encode individual data while the graph structure consists only of pairwise interactions. The driving belief is that node features are (by themselves) insufficient for these tasks, so benchmark performance accurately reflects improvements in graph learning. In our paper, we challenge this orthodoxy by showing that, surprisingly, node features are oftentimes more-than-sufficient for many common graph benchmarks, breaking this critical assumption. When comparing against a well-tuned feature-only MLP baseline on seven of the most commonly used graph learning datasets, one gains little benefit from using graph structure on five datasets. We posit that these datasets do not benefit considerably from graph learning because the features themselves already contain enough graph information to obviate or substantially reduce the need for the graph. To illustrate this point, we perform a feature study on these datasets and show how the features are responsible for closing the gap between MLP and graph-method performance. Further, in service of introducing better empirical measures of progress for graph neural networks, we present a challenging parametric family of principled synthetic datasets that necessitate graph information for nontrivial performance. Lastly, we section out a subset of real-world datasets that are not trivially solved by an MLP and hence serve as reasonable benchmarks for graph neural networks.

arXiv.org

I scraped 3B Goodreads reviews to train a better recommendation model

https://book.sv

#HackerNews #scraping #Goodreads #recommendation_model #data_analysis #machine_learning #book_reviews

Recommend | book.sv

Great book recommendations.

book.sv