Как мы ускоряли диффузионный декодер TTS

В пайплайне перевода видео в Яндекс Браузере скорость работы в синтезе речи долго оставалась узким местом: одно видео — это сотни фраз, каждая генерируется отдельно, и любая сэкономленная миллисекунда становится заметной в масштабах сервиса. Внутри TTS работает каскад из трёх компонентов: языковая модель предсказывает аудиотокены по тексту, диффузионный декодер восстанавливает мел‑спектрограмму из латентов, а вокодер превращает её в звуковую волну. Долгое время самой тяжёлой была языковая модель, но после её оптимизации на первый план вышел декодер латентов — его forward pass запускается на каждом шаге семплинга диффузии, а шагов — десятки. Именно его мы и взялись ускорять.

https://habr.com/ru/companies/yandex/articles/1051334/

#яндекс #machine_learning #diffusion_models #диффузионные_модели #трансформер #attention #шад

Как мы ускоряли диффузионный декодер TTS

В пайплайне перевода видео в Яндекс Браузере скорость работы в синтезе речи долго оставалась узким местом: одно видео — это сотни фраз, каждая генерируется отдельно, и любая сэкономленная миллисекунда...

Хабр

Applied Statistics for Data Science: from visual diagnostics to drift detection by Gal Arav is the featured book 📖 on Leanpub!

Launch Price $9.99 Special! — price will increase as I plan to steadily add more chapters over the coming weeks.

Link: https://leanpub.com/applied-statistics-for-data-science

#machine_learning #data_science #data_engineering #python

Applied Statistics for Data Science

A comprehensive applied statistics text featuring extensive graphical examples of probability distributions, inference, and real‑world data analysis.

Friendly.rb 2025: 루비 개발자를 위한 AI 모델 파인튜닝(Fine-tuning) 가이드

파인튜닝은 모델의 스타일, 구조적 출력, 토큰 최적화 등 특정 목적에 맞춰 모델 자체를 수정하여 최적의 결과를 얻는 과정이다.

🔗 원문 보기

Friendly.rb 2025: 루비 개발자를 위한 AI 모델 파인튜닝(Fine-tuning) 가이드

파인튜닝은 모델의 스타일, 구조적 출력, 토큰 최적화 등 특정 목적에 맞춰 모델을 수정해 최적의 결과를 얻는 과정이다.

Ruby-News

SpaceX signs computing power deal with open-source AI startup Reflection worth up to $6.3 billion

https://lemmy.world/post/48557065

SpaceX signs computing power deal with open-source AI startup Reflection worth up to $6.3 billion - Lemmy.World

Lemmy

No data center required: this AI chatbot runs entirely on a hand crank, and the harder the question, the harder it is to turn

https://lemmy.world/post/48556434

No data center required: this AI chatbot runs entirely on a hand crank, and the harder the question, the harder it is to turn - Lemmy.World

Lemmy

Stanford releases open-source tool that researches any topic and writes cited reports

https://lemmy.world/post/48554127

Stanford releases open-source tool that researches any topic and writes cited reports - Lemmy.World

Lemmy

All five major LLMs show pro-female hiring bias even on Japanese resumes

https://lemmy.world/post/48554061

All five major LLMs show pro-female hiring bias even on Japanese resumes - Lemmy.World

Lemmy

Machine Learning with Rust, Second Edition: Implement data pipelines, classical models, deep learning and NLP using burn, candle, linfa and smartcore by GitforGits | Asian Publishing House is a new release on Leanpub!

Link: https://leanpub.com/rustmachinelearning

#books #ebooks #newreleases #leanpublishing #selfpublishing #machine_learning #deep_learning #neural_networks #large_language_models #ai #rust

Machine Learning with Rust, Second Edition

Every machine learning model we train, every rust crate we add, and every design decision we make is connected to the same application, the same dataset, and the same accumulating codebase.

The Forecasting, CatBoost & Conformal Prediction Tetralogy

AI — Ассистент для торговли с крипто-биржами

Семь месяцев назад я каждый день наблюдал, как BTC летит вверх, ETH разворачивается, SOL вроде зажимается в боковике. На каждой паре — свои таймфреймы, разные ситуации, разная логика монет. Она сводила меня с ума. Я постоянно переключался между монетами и искал годную точку входа по монетам, а бывало такое: вошёл в позицию, и цена начинает движение против точки входа, начинаешь нервничать и выходить из позиции, или, наоборот, сидишь и держишь её, а потом ликвидация. Невозможно сидеть и смотреть, анализировать за десятью монетами, слишком сложно. Подумал, а почему бы не сделать так, чтобы система сама мне говорила «смотри, какая монета, и обрати внимание на точки входа»? Но не торговала за меня, всё-таки недоверие было, не хотел полностью убирать себя из процесса, а просто уведомляла монеты, которые, по её расчётам, выглядят интересно. Первая версия была базовая и простая. Просто скрипт, который считывал RSI и EMA на Python и раз в час слал мне в Telegram текст типа «RSI BTCUSDT–34 — вероятно перепродан». Скрипт был бесполезный, но я догадался, что направление верное и можно реализовать продукт помощнее, нужно было только изучить, как работает рынок, почитать литературу, статьи. Затем я добавил MACD, Bollinger. ATR: понял, что надо разделять режимы волатильности. Начал изучать ML, меня порадовала находка, книга автора Marcos López de Prado «Финансовое машинное обучение», о методах, которые использовал описанных в ней, ниже статьи есть описание. Получился продукт, и он мне принёс пользу. Теперь объясню, как это устроено внутри.

https://habr.com/ru/articles/1050600/

#алготрейдинг #bybit #python #machine_learning

AI — Ассистент для торговли с крипто-биржами

Крипто-ассистент — самописный аналитический сервис под биржи (spot + USDT-perpetual, то есть и обычная торговля, и бессрочные фьючерсы). Мой большой  проект, над которым очень долго работал,...

Хабр