Пишем персонального AI-ассистента на Python

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет: слушать микрофон; определять начало и конец речи с помощью VAD (Voice Activity Detection); преобразовывать речь в текст через модель Whisper; отправлять запросы на локальный LLM для генерации ответа; читать ответ вслух с помощью gTTS; начинать/останавливать запись по нажатию клавиши. Проект может служить как началом для экспериментов, так и для прототипирования реальных решений.

https://habr.com/ru/articles/919720/

#Python #Питон #Голосовой_ассистент #Распознавание_речи #Text_To_Speech #voice_assistant

Пишем персонального AI-ассистента на Python

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального...

Хабр

Транскрипция речи. Офлайн и без ограничений

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:

https://habr.com/ru/articles/917152/

#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics

Транскрипция речи. Офлайн и без ограничений

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали наше...

Хабр

Добавление слов в языковую модель Vosk

Краткий гайд как дополнить vosk модель распознавания речи своими словами. Для дальнейшего использования в своих проектах. Все подводные камни в использовании инструмента kaldi в 2025 году Принять испытание

https://habr.com/ru/articles/909788/

#vosk #kaldi #адаптация_модели_vosk #распознавание_речи

Добавление слов в языковую модель Vosk

Данная статья являеться дополнением к информации представленной в данной статье . Рекомендую сначала ознакомиться с ней. На момент 2025 года пользователь решивший повторить опыт представленный в...

Хабр

Как я делал голосового ассистента на NLP и не сошел с ума

Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой статье разберём, как собрать своего кастомного ассистента с нуля на Python, используя современные NLP-инструменты. Без Siri, без Alexa, всё своё, родное.

https://habr.com/ru/articles/897862/

#голосовой_ассистент #python #распознавание_речи #синтез_речи #openai #rasa #whisper #nlp #машинное_обучение

Как я делал голосового ассистента на NLP и не сошел с ума

Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой...

Хабр

Решение задач распознавания на Flutter

Задачи распознавания изображений и звука имеют широкий спектр применений в различных приложениях. Используя Flutter, как мощный фреймворк для разработки кроссплатформенных мобильных приложений, вполне возможно реализовать функционал распознавания данных в несколько шагов. В этой статье мы рассмотрим некоторые из задач распознавания, такие как распознавание лиц, текста и звука, и приведем фрагменты кода и рекомендуемые библиотеки для их реализации на Flutter.

https://habr.com/ru/articles/890700/

#flutter #распознавание_речи #распознавание_лиц #распознавание_текста #google #ml_kit

Решение задач распознавания на Flutter

Задачи распознавания изображений и звука имеют широкий спектр применений в различных приложениях. Используя Flutter, как мощный фреймворк для разработки кроссплатформенных мобильных приложений, вполне...

Хабр

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

В этой статье мы рассмотрим успешные кейсы и неудачные примеры, сдерживающие развитие технологии, расскажем про тренды голосового шоппинга и особенности интеграции такого решения. Вы узнаете: - Что такое голосовая коммерция? - Какую пользу она приносит бизнесу? - Как голосовая коммерция меняет современный ритейл? - Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии? - Как изменилась обработка голоса человека с развитием искусственного интеллекта?

https://habr.com/ru/articles/890818/

#технологии #голосовая_система #голосовая_коммерция #распознавание_речи #голосовой_поиск #тренды_ecommerce #ии_в_бизнесе

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

Шопинг с использованием голоса уже не кажется чем-то удивительным. По данным опроса Департамента социальных исследований и консалтинга ВЦИОМ Андрей Даудрих, среди 63% россиян, которые...

Хабр

Методы распознавания матерных (и не только) языков

Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет виден всем остальным. Неожиданно (!!!) появились интересы с не очень хорошими словами, которые обычно называют матерными. Встала задача по распознаванию языка с матерными словами, чтобы исключить возможность добавления гадости в наш огород!

https://habr.com/ru/companies/doubletapp/articles/886832/

#распознавание_речи #распознавание_текста #фильтрация_спама #триграммы #нечеткий_поиск #chatgpt

Методы распознавания матерных (и не только) языков

Всем привет! Меня зовут Миша, я работаю Backend-разработчиком в Doubletapp . В одном из проектов появилась фича по добавлению тегов по интересам. Любой пользователь может создать интерес, и он будет...

Хабр

YouScriptor — ИИ стартап за выходные

Сервис перевода Youtube в текст YouScriptor Честно сказать, меня весьма сокрушает то, что контент в интернете перешел из текста в видео. Читаю я довольно быстро и мне куда проще и бытрее окинуть страницу взглядом, чем пролистивыать видео на несколько десятков минут, пыстаясь поскорее найти суть. Подозреваю, что сам видео-формат и продвигается как пожиратель времени. В Яндексе уже достаточно давно появилась функция пересказ YouTubе - но это именно пересказ и отсебятина, мне это не подходит. Нужен точный текст. Сейчас очень модно ругать возможности ИИ и рассказывать то что ИИ "заменит программистов" - миф и выдают ЛЛМ "говнокод". Может там временами и говнокод, но иногда для задачи хороший код и не нужен. Нужно просто что бы работало и устраивало пользователей. Свой проект я создал буквально за выходные и без LLM он точно был бы невозможен. Так как потребовал минимум месяц времени, а у меня столько нет. GPT o1 подсказал все необходимые фреймворки, написал необходимый код и алгоритмы. Предложил структуру БД, написал весь маппинг. Написал бэкграунд сервисы, в оторых организует очередь задач на распознавание. Так же создал фронт-энд на Angular. По сути в код я практически не лез - с меня только дизайн и архитиктура. Вишенка на торте - нейминг и лого тоже были созданы LLM. Когда я рассказал другу об идее - он сказал - круто бы в наше время была такая программа - что бы писала за нас конспекты. Я спросил у GPT как можно назвать сервис, который работает с конспектами и транскрибирует ролики с ютуба - референсы - писарь, переписчик, конспекты, ютуб - и он выдал в том числе YouScriptor (scriptor на латыни - писарь). С логотипом тоже долго не возился - просто со второй или третье попытки взял картинку в задании к которой было "minimalistic vectorized web service logo of scriptor"

https://habr.com/ru/articles/877858/

#youtube #распознавание_речи #искусственный_интеллект #chatgpt #стартапы

YouScriptor — ИИ стартап за выходные

Сервис перевода Youtube в текст YouScriptor Честно сказать, меня весьма сокрушает то, что контент в интернете перешел из текста в видео. Читаю я довольно быстро и мне куда проще и бытрее окинуть...

Хабр

Диктофон и медицина

Мы занимаемся разработкой и производством диктофонов для безопасности Edic-mini и аудиобейджей “Свидетель” для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика). Сейчас, с развитием технологии ИИ, сфера применения диктофонов расширяется и я уже писал об этом на Хабре https://habr.com/ru/articles/851622/ и в этой статье я хотел бы остановиться на применении диктофона в медицине. Как обычно, все мои идеи базируются на реальных моих потребностях.

https://habr.com/ru/articles/876326/

#диктофон #медицина #диагноз #аналитика #запись #распознавание_речи

АудиоАрхив жизни, ИИ и речевая аналитика

Сегодня пятница и снова с вами выпуск бредовых идей для подумать на выходных :-).  Пример диктофона В этом посте я хотел бы поднять вопрос недостатка программных средств для анализа и обработки...

Хабр

Как модуль распознавания речи в Solar Dozor 8.0 упрощает ̶ж̶и̶з̶н̶ь̶ работу офицеров безопасности

Всем привет! Меня зовут Екатерина Ратнер, я старший аналитик в проекте Solar Dozor — первой в России корпоративной DLP-системе, которая используется организациями страны и СНГ уже более 20 лет. Одной из главных задач DLP-систем является защита информации в разных форматах, включая звук. Запись звука – обычная функция DLP-систем, в реальности же проанализировать все аудиозаписи сотрудников и найти в них угрозы – трудоемкая задача, которая занимает массу времени и ресурсов офицеров безопасности. К счастью, в новой версии Solar Dozor 8.0 появилась функция автоматического перевода речи в текст. Система с помощью нейросети распознает речь более чем на 50 языках, переводит ее в текст, после чего автоматически проверяет политиками безопасности, при необходимости регистрирует инциденты. В этой статье я расскажу, как работает наш новый модуль распознавания звука, как выбрать подходящую модель распознавания и приведу пример реального кейса в части пресечения попыток злонамеренных действий сотрудников с его помощью.

https://habr.com/ru/companies/solarsecurity/articles/876018/

#распознавание_речи #gpu #dozor #иб #информационная_безопасность #dlp #dlpсистемы

Как модуль распознавания речи в Solar Dozor 8.0 упрощает ̶ж̶и̶з̶н̶ь̶ работу офицеров безопасности

Всем привет! Меня зовут Екатерина Ратнер, я старший аналитик в проекте Solar Dozor — первой в России корпоративной DLP-системе, которая используется организациями страны и СНГ уже более 20 лет. Одной...

Хабр