I Measured Claude 4.7's New Tokenizer. Here's What It Costs You.

The docs said 1.0–1.35x more tokens. On real content, I measured 1.47x.

Claude Code Camp

ぐれーぷ@llama.cppウォッチャー (@2022_technology)

llama.cpp에 Gemma 4의 마지막 주요 수정사항이 머지됐다. 일본어에 큰 영향을 주는 토크나이저 관련 수정으로, Gemma 4 벤치마크를 다시 확인해야 할 정도로 중요한 업데이트다.

https://x.com/2022_technology/status/2042177089412255932

#llamacpp #gemma4 #tokenizer #opensource #llm

ぐれーぷ@llama.cppウォッチャー (@2022_technology) on X

たった今、llama.cppに"last major Gemma 4 fix"(最後のGemma4の大きな修正)がマージされました! 日本語話者の方のコメントによれば、がっつり日本語に影響するトークナイザ関連の修正だそうです Gemma4のベンチマークを取られる方は、これで安心してベンチをとれますね https://t.co/ErY5HwZGxu

X (formerly Twitter)

#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65

_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend

Syntaqlite Playground

chibicc-dumper makes public.
A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.

This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.

https://github.com/kekyo/chibicc-dumper

#chibicc #tokenizer #parser #ast #typescript

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

https://habr.com/ru/articles/1008422/

#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...

Хабр

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

https://habr.com/ru/articles/977210/

#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...

Хабр

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о "шестидесятниках".

https://habr.com/ru/articles/974658/

#python #tokenizer #чтение #книги #поэзия #проза #ахмадулина

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Что сделалось? Зачем я не могу, уж целый год не знаю, не умею слагать стихи и только немоту тяжелую в моих губах имею? Вы скажете — но вот уже строфа,...

Хабр

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.

https://habr.com/ru/articles/972880/

#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Что меня носит по свету транзитом? Тело намаялось, сердце не сыто. Бегство от быта — смешная защита, всё ненасытней растут аппетиты. Любим сквозь сито, поем через сито. Сыты по горло — сердце не сыто....

Хабр

Я пена морская. Как BERT не справился с анализом простой поэзии

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

https://habr.com/ru/articles/971172/

#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет

Я пена морская. Как BERT не справился с анализом простой поэзии

Меня — видишь кудри беспутные эти? - Земною не сделаешь солью. Дробясь о гранитные ваши колена, Я с каждой волной — воскресаю! Да здравствует пена — веселая пена — Высокая пена морская! Стихотворение...

Хабр

Splintr - một BPE tokenizer mới viết bằng Rust với Python bindings - đã ra mắt! Nhanh hơn tiktoken của OpenAI (3-4x đơn, 10-12x batch), hỗ trợ streaming decoder và 54 token đặc biệt. Tương thích với vocab cl100k_base, o200k_base. Tác giả đang mong nhận phản hồi từ cộng đồng.
#Rust #Python #Tokenizer #LLM #AI #OpenSource #Splintr #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1p71luf/bpe_tokenizer_in_rust_would_love_feedback_from/