Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков

Как превратить обычный ноутбук в автономную станцию расшифровки, если у вас нет мощной GPU, а облака не подходят по цене или приватности? В статье делюсь опытом создания локального конвейера на базе WhisperX для обработки сотен часов аудиоархива. О чем пойдет речь: Large-v3 на CPU : почему 40 ГБ RAM важнее видеокарты и как добиться стабильной работы без «замерзания» PyTorch. От скрипта к приложению : как с помощью «вайб-кодинга» и Google Antigravity (Gemini 3.0) превратить одиночный скрипт в модульный менеджер очередей с Drag-and-Drop и пакетной обработкой. Техническое «мясо» : установка через uv в один клик, борьба с конфликтами OpenMP и система пресетов (от Turbo до Russian Expert). Реальные цифры : нагрузка на железо, температуры и честная скорость обработки на Ryzen 5500U. Разбираем, как современные LLM позволяют собирать сложные инженерные инструменты «над» ML-моделями, даже не погружаясь в их низкоуровневую реализацию. Репозиторий проекта : whisperx-batch-gui

https://habr.com/ru/articles/1003200/

#WhisperX #Python #Транскрибация #Искусственный_интеллект #Машинное_обучение #LLM #Gradio #Open_Source #Автоматизация #Ryzen

Large-v3 на Ryzen 5500U: как я оцифровал архив диктофонных записей без GPU и облаков

У многих из нас есть «кладбище» аудиозаписей: и��тервью, лекции, длинные совещания. Когда мой архив перевалил за сотню часов, я понял, что пора что-то менять. Облачные сервисы либо кусаются по цене,...

Хабр

„Просто используй Docker“ — мой путь от Whisper к WhisperX

Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 140 закладок. В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете. Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко. Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать. Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог. Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался. Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа. В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги. Весь код выложен на Гитхаб.

https://habr.com/ru/articles/948894/

#диктофон #whisper #whisperx #rtx_5060 #cuda #расшифровка_аудио

„Просто используй Docker“ — мой путь от Whisper к WhisperX

Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper . Идея была создать бесплатную и приватную систему ИИ...

Хабр

Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности. Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту. В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами. Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать. Мои скрипты выложены на GitHub. Кто что сказал

https://habr.com/ru/articles/942232/

#диктофон #whisper #Whisperx #openai #rtx_5060 #ngc

Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

В новостях всё чаще говорят об «ИИ‑диктофонах»  — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже...

Хабр
@zital @xezpeleta Eskerrik asko bioi baina, ni zuen aldea erabiltzaile xumea naiz. Ez dakit zer diren gauza asko_ #whisperx gpu-a... Nik behar dudana da aplikazio bat edo gune bat esan eta idatziko didana. Akaso horrelakorik ez dago librean eta zeharbide horiek erabili behar dira, baina, ni galdu egiten naiz hor. Zorry
LowEndBoxTV: OpenAI Whisper? No! There Are Better Options

Looking for a transcription solution? Sure, you can pay one of the big cloud services but that isn't the LowEnd way! Let's see what Piotr's got for us.

LowEndBox
SOTA ASR Tooling: Long-form Transcription

Benchmarking the different Whisper frameworks for long-form transcription

Amgad’s Substack