ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

В первой части мы проверили три сервиса: AssemblyAI , Riverside и Teamlogs . Все они пообещали точную и быструю транскрибацию, но на деле… Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда. Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда. Продолжаем тестирование!

https://habr.com/ru/companies/bothub/articles/910530/

#нейросети #транскрибация #расшифровка_аудио #whisper #speechtotext

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

В первой части мы проверили три сервиса: AssemblyAI , Riverside и Teamlogs . Все они обещали точную и быструю транскрибацию, но на деле… Первый оказался хорош на английском, но на русском плыл. Второй...

Хабр

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

https://habr.com/ru/companies/alfa/articles/909498/

#whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом...

Хабр

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн. В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком. По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

https://habr.com/ru/companies/alfa/articles/909498/

#whisper #nemo #ollama #gemma #obsidian #транскрибация #диаризация #саммари #саммаризация #расшифровка_аудио

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом...

Хабр

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

Собеседования - всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности. А переслушивать запись, которая может длиться от часа и выше это долго и неэффективно. Задумался: а что если использовать что-то, что автоматически превратит аудиозапись интервью в текст? Так я открыл для себя Whisper от OpenAI. Под катом подробности о его применении.

https://habr.com/ru/articles/910246/

#whisper #openai #python #транскрибация #анализ_речи #собеседование #подготовка_к_интервью #карьерный_рост #gpt #сезон_open_source

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

Собеседования — всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности....

Хабр

ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)

Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами. Одно дело — стерильное студийное аудио, где диктор звучит как утренний ведущий на радио. Совсем другое — голосовое, записанное на фоне вентилятора и междометий в стиле «эээ… ну короче». Так что мы решили не просто составить список транскрибаторов с сухими характеристиками. Мы пошли дальше — устроили испытание! Взяли 5 популярных нейросетей и заставили их пройти 3 уровня сложности. Обзор вышел объёмным, поэтому мы разбили его на две части . В первой расскажем про три сервиса. Во второй — про оставшиеся два, а ещё попробуем выбрать лучших. Приятного Вам прочтения!

https://habr.com/ru/companies/bothub/articles/908672/

#нейросети #расшифровка_аудио #транскрибация #assemblyai #riverside #teamlogs

ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)

Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы...

Хабр

Обзор лучших API для транскрибации речи 2025

На прошлой неделе мы сравнивали селфхарм селфхост решения для speech-to-text на Apple Silicon процессорах. Но что делать, если вы - бизнес, и вам нужно API для транскрибации? Или что делать, если вы - разработчик, и вам просто хочется сделать пет-проект с транскрибацией? Сейчас посмотрим, какие варианты есть на рынке, и какой из них самый лучший (спойлер - однозначного победителя нет) .

https://habr.com/ru/articles/886924/

#API #транскрибация #Whisper #OpenAI

Обзор лучших API для транскрибации речи 2025

На прошлой неделе мы сравнивали селфхарм селфхост решения для speech-to-text на Apple Silicon процессорах. Но что делать, если вы - бизнес, и вам нужно API для транскрибации? Или что делать, если вы -...

Хабр

Выжимаем максимум из моделей Whisper на Apple Silicon

Недавно захотел вспомнить молодость и пересмотреть отличные лекции по машинному обучению из университета. Смотреть, конечно же, стало скучно уже на 5 минуте, и мне пришла в голову отличная идея. Что если перевести все лекции в текст и просто нажимать Ctrl Cmd+F про то, что мне интересно? Загуглил, какие есть варианты, есть огромная куча API от заграничных и российских разработчиков, есть удобные UI для локального развертывания, но это все не то. API - скучно (да и вдруг потом на этих лекциях модели будут тренировать), UI не поддерживают Apple Silicon, и все гоняют на процессоре. Хочется что-то, чтобы и видеокарту использовало, и работало быстро, и чтобы можно было восхититься высокой скоростью моего M1 (спойлер — не восхититься).

https://habr.com/ru/articles/884992/

#Whisper #Нейросети #Транскрибация

Выжимаем максимум из моделей Whisper на Apple Silicon

Недавно захотел вспомнить молодость и пересмотреть отличные лекции по машинному обучению из университета. Смотреть, конечно же, стало скучно уже на 5 минуте, и мне пришла в голову отличная идея. Что...

Хабр

Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами. Я — Иван Бондаренко, старший преподаватель и научный сотрудник Новосибирского государственного университета, сооснователь стартапа «Сибирские нейросети». Вместе с коллегами я реализовал систему, которая помогает в расшифровке живых бесед на русском языке. Мы назвали её «Писец» и протестировали на Тотальном диктанте. В этой статье расскажу, что у нас получилось: как выбирали модели, наборы данных, инструменты, как использовали Wav2Vec2 и Whisper в пайплайне распознавания, файнтюнили Whisper. Ещё коснусь вопросов робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

https://habr.com/ru/companies/oleg-bunin/articles/867722/

#распознавание_речи #нейронные_сети #открытый_код #открытое_программное_обеспечение #транскрибация #работа_со_звуком #wav2vec2 #whisper #инвариантные_риски #environment

Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи,...

Хабр

Сравнение трёх алгоритмов транскрибации: Whisper, встроенный в macOS и автоматическая расшифровка YouTube

Сравнение трёх популярных алгоритмов транскрибации речи: Whisper от OpenAI, встроенного в macOS , и автоматической расшифровки YouTube . В обзоре рассматриваются преимущества и недостатки каждого решения, чтобы помочь выбрать оптимальный инструмент для обработки технического контента. 🔍 Узнайте, какой алгоритм лучше всего подходит для ваших задач и повысите эффективность рабочих процессов с транскрибацией!

https://habr.com/ru/articles/867814/

#whisper #транскрибация #youtube

Сравнение трёх алгоритмов транскрибации: Whisper, встроенный в macOS и автоматическая расшифровка YouTube

При работе с видеоконтентом нередко возникает задача получить точную текстовую расшифровку. Качество транскрипции напрямую влияет на удобство дальнейшей обработки: поиск по тексту, добавление...

Хабр

Делают всё роботы, а не человек! Как работать меньше, но продуктивнее? Обзор шести нейросервисов

Нейросети — настоящая суперсила в современном мире: мгновенный анализ огромных объёмов данных, оптимизация процессов и автоматизация рутины. Это уже не просто инструменты — это высвобождение времени и конкурентное преимущество. Рекомендации по выбору и использованию классных нейросервисов! Будьте осторожны, это довольно объёмный обзор.

https://habr.com/ru/articles/859872/

#ии #нейросети #генерация #тексты #картинки #изображения #транскрибация #сервисы #искусственный_интеллект #перефразирование

Делают всё роботы, а не человек! Как работать меньше, но продуктивнее? Обзор шести нейросервисов

Кому нужна суперсила? Их есть у меня! Нейросети — настоящая суперсила в современном мире: мгновенный анализ огромных объёмов данных, оптимизация процессов и автоматизация рутины. Это уже не просто...

Хабр