Часть 3: Архитектура нейросети для распознавания голосовых команд

def get_features_all(y, sr): """ Получаем различные параметры аудио которые в сумме дадут уникальный набор признаков """ # Частота цветности chst = librosa.feature.chroma_stft(y=y, sr=sr) # Среднеквадратичные колебания (энергия сигнала) rmse = librosa.feature.rms(y=y) # Пересечения нуля (частота смены знака сигнала) zcr = librosa.feature.zero_crossing_rate(y) # Центр масс звука (спектральный центр) spe_c = librosa.feature.spectral_centroid(y=y, sr=sr) # Ширина полосы частот spe_b = librosa.feature.spectral_bandwidth(y=y, sr=sr) # Спектральный спад частоты rol = librosa.feature.spectral_rolloff(y=y, sr=sr) # Значимые для обработки частоты (MFCC) mfcc = librosa.feature.mfcc(y=y, sr=SR, n_mfcc=50, n_mels=50, hop_length=1024) return chst, rmse, zcr, spe_c, spe_b, rol, mfcc

https://habr.com/ru/articles/1005320/

#искусственный_интеллект #исследование #исходный_код #нейронные_сети #CNN #распознавание_голоса #обработка_аудио #умный_дом #Python #MFCC

Часть 3: Архитектура нейросети для распознавания голосовых команд

Дорогие читатели! Продолжаю серию статей о моём дипломном проекте «Голосовое управление Умным домом» . В Части 1 я рассказал о концепции и видении проекта, в Части 2 — о проектировании...

Хабр

Обработка аудио на ESP32

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E . При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum , mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.

https://habr.com/ru/articles/906658/

#esp32c3 #tensorflowlite #u8g2 #mfcc #MAX9814 #машинное_обучение #аудио #dsp #mcsis

Обработка аудио на ESP32

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E . При анализе...

Хабр

More info about the FFT and MFCC used in samplebrain:

- The # of FFT bins is set to the "block" size by default. However, there is an upper bound of 100 bins.

- The # of MFCC filters is 12.

#fft #mfcc