Мы тут уже больше года с @rayslava ходим на уроки японского. Вы это уже, конечно, знаете если слушали наш подкаст и читали нас.

Первые пару месяцев я вёл конспекты в тетрадочке, но в итоге перестал потому что:

  • не успеваю записывать и одновременно воспринимать полноценно то, что на экране
  • потом искать по тетрадочке с её разрастанием становится мягко говоря неудобно - была несколько раз ситуация когда я хотел найти нужное слово или форму, но на её поиск требовалось больше времени чем поиск в интернете или обращение к LLM

А недавно я всё-таки решил вернуться к конспектам, но уже по-новому.

Теперь у меня есть скриптик, который делает слудующее:

  • получает от меня имя файла с записью занятия (которую я делаю в OBS)
  • с ffmpeg вынимает аудио
  • с ffmpeg делает скриншоты картинки раз в 15 секунд
  • скармливает аудио занятия whisper.cpp:main-vulkan (предварительно скачав с HuggingFace нужную модельку если её нет)
  • упаковывает субтитры, аудио и скриншоты в тарбол
  • я отдаю тарбол ChatGPT с заранее написанным промптом и получаю на выходе:
    • Markdown (Obsidian)
    • EPUB (e-Ink читалка)
    • PDF (десктоп)

Несмотря на дикие лулзы, которые творит Whisper на смешанной речи записанной из удалённого урока, работает на удивление годно и уже помогало мне готовиться к урокам и при выполнении домашнего задания.

P.S. В появлении этого поста вините @rayslava

#LLM #ML #AI #study #Japanese #log #workflow #automation #thoughts #pic #whisper #FFMPEG #ChatGPT #STT #ASR #pipeline #language

Что перестаёт работать в тестировании, когда приходит LLM

13 лет я тестировала софт, где у бага был адрес: шаг 1, шаг 2, ожидаемый результат, фактический. Нажал — получил. Нажал ещё раз — получил то же самое. А пару лет назад я начала тестировать продукты на LLM. И почти всё, на чём держится классический QA, перестало работать. Не «усложнилось» — перестало работать как метод. Ниже — где именно ломается, по пунктам. Если вы тестировщик и заходите в AI, это ваша новая реальность.

https://habr.com/ru/articles/1049482/

#llm #qa #qa_lead #aiагенты #stt #tts #chatbot #evals #llm_testing

Что перестаёт работать в тестировании, когда приходит LLM

Слева — привычный зелёный тест. Справа — то, что с ним делает LLM 13 лет я тестировала софт, где у бага был адрес: шаг 1, шаг 2, ожидаемый результат, фактический. Нажал — получил. Нажал ещё раз —...

Хабр

Speech-to-text has come a long way since I first used it in 2011.

I am using a model called Parakeet V3 shipped as part of the desktop app called Handy.

https://handy.computer/

It is the fastest and most accurate dictation tool I've ever used.

Wrote a whole page of documentation using it today.

(Still had to do find/replace to convert groups of words into one PascalCase word.)

#STT #Dictation

Handy

Handy is a cross platform, open-source, speech-to-text application for your computer

Handy
A really nice tool—especially if you like to have English and Chinese voice transcription. I need to wait for the downloads to finish to get a real impression, but the first impression is good. #speechRecognition #STT #SpeechToText #voicetyping

GitHub - wealotwang/voice-inpu...

RE: https://bsky.app/profile/did:plc:daexpe52ebb4bwh3ybzyvmkz/post/3mofaimbuqv2k


RE: https://bsky.app/profile/did:plc:daexpe52ebb4bwh3ybzyvmkz/post/3mofaimbuqv2k

Updated the readme on : Whipser Small Kabyle :)

https://huggingface.co/boffire/whisper-small-kabyle

#Kabyle #STT

boffire/whisper-small-kabyle · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

AI Speech Technologies

This page is a collection of notes and links related to AI speech technologies, including Text-to-Speech (TTS), Speech-to-Text (STT), voice synthesis, voice cloning, and other rela(...)

#ai #cloning #speech #stt #synthesis #tts #voice #whisper

https://taoofmac.com/space/ai/speech?utm_content=atom&utm_source=mastodon&utm_medium=social

@cwebber

Yeah. You're referring to Mozilla Common Voice ( https://commonvoice.mozilla.org )

I believe that The HomeAssistant voice assistant uses it in a couple of ways, some non-obvious, ie not just for TTS. From memory, part of their voice recognition training comes from taking CommonVoice samples and adding all kinds of noise and distortion to them that would likely also happen in the real world (background noises, being muffled by objects etc), and then training on those distorted samples.

I contribute occasionally. There's an app on Fdroid that makes it quick and easy.

It's a great project and one I wish Mozilla would focus more on instead of all the other junk.

#Mozilla #CommonVoice #HomeAssistant #TTS #STT

Mozilla Common Voice

Went to see this Sound (/experience?) installation ZYX, Anna Barham https://www.mattsgallery.org/exhibitions/zyxv. The actual experience is an almost hallucinatory journey for 15 minutes.
I also appreciate the ideas behind the misunderstanding of speech to text synthesis and text as medium which changes you similar to Stiegler’s (taken from Aristotle) Pharmakon of the techne of writing.
#art #london #pharmakon #STT

AI Speech Technologies

This page is a collection of notes and links related to AI speech technologies, including Text-to-Speech (TTS), Speech-to-Text (STT), voice synthesis, voice cloning, and other rela(...)

#ai #cloning #speech #stt #synthesis #tts #voice #whisper

https://taoofmac.com/space/ai/speech?utm_content=atom&utm_source=mastodon&utm_medium=social

Schwerpunkt 1
Lokales Speech to Text in Linux Mint einrichten: Auf Knopfdruck (beliebiger Shortkey) das Diktat starten & beenden, in jeder beliebigen Anwendung. Keine Cloud, kein mithörender Datenkrake, nur 4-6 GB im RAM.

Schwerpunkt 2
Wie mir KI (GPT) geholfen hat, das alles hinzubekommen, inkl. kompletter Projektdokumentation.

https://blog.derbrumme.de/lokales-speech-to-text-in-linux-mint-einrichten/

#Linux #OpenSource #SpeechToText #STT #Vosk #Privacy #SelfHosting #KI #AI #NerdDictation