Tokenizers turn words into numbers so models can read them.

#ai #nlp #tokenizer

Tokenizers turn words into numbers so models can read them.

#nlp #tokenizer #machinelearning

RT @perplexity_ai: Wir stellen den Unigram-Tokenizer, den wir neu entwickelt haben, als Open-Source zur Verfügung, um die CPU-Auslastung um das Fünffache bis Sechsfache zu reduzieren.

mehr auf Arint.info

#GPU #Latency #OpenSource #PerplexityAI #Tokenizer #Unigram #arint_info

https://x.com/perplexity_ai/status/2059664738087469511#m

Arint - SEO+KI (@[email protected])

<p>RT @perplexity_ai: Wir stellen den Unigram-Tokenizer, den wir neu entwickelt haben, als Open-Source zur Verfügung, um die CPU-Auslastung um das Fünffache bis Sechsfache zu reduzieren.</p> <p><a href="https://arint.info/@Arint/116650214999721854">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GPU #Latency #OpenSource #PerplexityAI #Tokenizer #Unigram #arint_info</p> <p><a href="https://x.com/perplexity_ai/status/2059664738087469511#m">https://x.com/perplexity_ai/status/2059664738087469511#m</a></p>

Mastodon Glitch Edition

Ускоряет ли нас AI-coding или просто удорожает?

По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:

https://habr.com/ru/articles/1037956/

#claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа

Ускоряет ли нас AI-coding или просто удорожает?

Как понять, что AI-assisted coding действительно эффективен? По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько...

Хабр

Большие модели, маленькие токены. ЛЛМ - битва за контекст (ч.1)

Почему понимание токенов, весов и словарей — ключ к продуктивной работе с AI-агентами. Первая глава цикла “Битва за контекст”.

https://habr.com/ru/articles/1033230/

#ai #tokenizer #llm

Большие модели, маленькие токены. ЛЛМ - битва за контекст (ч.1)

Когда я выкладывал первую главу этого цикла статей в свой телеграм-канал ( @laxcity_lead ), Anthropic только-только выпустили Agent Skills . И уже буквально в момент появления скиллов у меня было...

Хабр
I Measured Claude 4.7's New Tokenizer. Here's What It Costs You.

The docs said 1.0–1.35x more tokens. On real content, I measured 1.47x.

Claude Code Camp

#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65

_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend

Syntaqlite Playground

chibicc-dumper makes public.
A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.

This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.

https://github.com/kekyo/chibicc-dumper

#chibicc #tokenizer #parser #ast #typescript

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.

https://habr.com/ru/articles/1008422/

#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...

Хабр

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

https://habr.com/ru/articles/977210/

#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...

Хабр