Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

https://habr.com/ru/articles/1008422/

#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...

Хабр

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

https://habr.com/ru/articles/977210/

#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...

Хабр

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о "шестидесятниках".

https://habr.com/ru/articles/974658/

#python #tokenizer #чтение #книги #поэзия #проза #ахмадулина

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Что сделалось? Зачем я не могу, уж целый год не знаю, не умею слагать стихи и только немоту тяжелую в моих губах имею? Вы скажете — но вот уже строфа,...

Хабр

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

https://habr.com/ru/articles/972880/

#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Что меня носит по свету транзитом? Тело намаялось, сердце не сыто. Бегство от быта — смешная защита, всё ненасытней растут аппетиты. Любим сквозь сито, поем через сито. Сыты по горло — сердце не сыто....

Хабр

Я пена морская. Как BERT не справился с анализом простой поэзии

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

https://habr.com/ru/articles/971172/

#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

Я пена морская. Как BERT не справился с анализом простой поэзии

Меня — видишь кудри беспутные эти? - Земною не сделаешь солью. Дробясь о гранитные ваши колена, Я с каждой волной — воскресаю! Да здравствует пена — веселая пена — Высокая пена морская! Стихотворение...

Хабр

Splintr - một BPE tokenizer mới viết bằng Rust với Python bindings - đã ra mắt! Nhanh hơn tiktoken của OpenAI (3-4x đơn, 10-12x batch), hỗ trợ streaming decoder và 54 token đặc biệt. Tương thích với vocab cl100k_base, o200k_base. Tác giả đang mong nhận phản hồi từ cộng đồng.
#Rust #Python #Tokenizer #LLM #AI #OpenSource #Splintr #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1p71luf/bpe_tokenizer_in_rust_would_love_feedback_from/

Пушкин против Ершова: кто победит в дуэли стилей?

Сравнил Пушкина и Ершова с помощью Python и пытался найти автора "КОнька-горбунка" среди цифр и кода.

https://habr.com/ru/articles/967162/

#python #nltk_python #tokenizer #pymorphy #matplotlib #литература #литература_художественная #литературная_страничка #литературное_творчество

Пушкин против Ершова: кто победит в дуэли стилей?

Я — цифровой гуманитарий. Я не просто читаю стихи. Я разбираю на цифры и собираю заново — чтобы увидеть то, что скрыто от глаз: ритм, лексику, синтаксис, звуковую ткань. Сегодня я сравню двух...

Хабр

Как Python раскрыл поэтический гений Маршака

Маршак хорошо переводил Шекспира, но насколько он был близок к оригиналу? Сохранен ли у него ритм, размер, смысл и структура? Установлю это математически точно с помощью Python.

https://habr.com/ru/articles/965552/

#python #nltk #nltk_python #tokenizer

Как Python раскрыл поэтический гений Маршака

Маршак почти идеально сохранил ритм, смысл и структуру оригинала. Вот как я убедился в этом с помощью Python. Я цифровой гуманитарий. Мне интересно пересечение литературы и математики. Я не просто...

Хабр

[Перевод] Как открытые веса раскрыли секреты обучения GPT-5

Команда AI for Devs перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения. На примере модели GPT-oss автор показывает, как можно восстановить части обучающего пайплайна и даже выявить, что GPT-5 видела фразы с сайтов для взрослых.

https://habr.com/ru/articles/955260/

#OpenAI #GPT5 #GPToss #glitchtokens #trainingdata #membershipinference #tokenizer #embeddings #GitHub #adultcontent

Как открытые веса раскрыли секреты обучения GPT-5

Команда  AI for Devs  перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения.На примере модели GPT-oss автор показывает, как можно...

Хабр

Tự xây dựng BPE Tokenizer từ đầu: Tối ưu và thử nghiệm! 🚀 Tác giả đã tăng tốc độ training lên 50 lần, inference nhanh hơn 3.7 lần (Rust), và thử nghiệm GPT-2 pre-training với tokenizer tùy chỉnh. Mã nguồn, notes và readme chi tiết đều có trên Github!

#BPE #Tokenizer #MachineLearning #NLP #Vietnamese #LậpTrình #AI #XửLýNgônNgữTựNhiên

https://www.reddit.com/r/LocalLLaMA/comments/1o18yl8/building_a_bpe_tokenizer_from_scratch/