Tokenizers turn words into numbers so models can read them.
Tokenizers turn words into numbers so models can read them.
Tokenizers turn words into numbers so models can read them.
RT @perplexity_ai: Wir stellen den Unigram-Tokenizer, den wir neu entwickelt haben, als Open-Source zur Verfügung, um die CPU-Auslastung um das Fünffache bis Sechsfache zu reduzieren.
mehr auf Arint.info
#GPU #Latency #OpenSource #PerplexityAI #Tokenizer #Unigram #arint_info
<p>RT @perplexity_ai: Wir stellen den Unigram-Tokenizer, den wir neu entwickelt haben, als Open-Source zur Verfügung, um die CPU-Auslastung um das Fünffache bis Sechsfache zu reduzieren.</p> <p><a href="https://arint.info/@Arint/116650214999721854">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GPU #Latency #OpenSource #PerplexityAI #Tokenizer #Unigram #arint_info</p> <p><a href="https://x.com/perplexity_ai/status/2059664738087469511#m">https://x.com/perplexity_ai/status/2059664738087469511#m</a></p>
Ускоряет ли нас AI-coding или просто удорожает?
По количеству увеличенных релизов с качеством на приемлемом уровне? Звучит логично. Но знаете ли вы, какой ценой это достигается - сколько денег было потрачено на разработку фичи, и почему, например, было потрачено $1,000 в месяц вместо $500? И как вы понимаете, что в случаях, связанных с:
https://habr.com/ru/articles/1037956/
#claudecode #claude_code #jira #jira_plugin #bitbucket #github #tokenization #tokenizer #эффективность_работы #эффективная_работа
Большие модели, маленькие токены. ЛЛМ - битва за контекст (ч.1)
Почему понимание токенов, весов и словарей — ключ к продуктивной работе с AI-агентами. Первая глава цикла “Битва за контекст”.
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65
_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend
chibicc-dumper makes public.
A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.
This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.
Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG
Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.
https://habr.com/ru/articles/1008422/
#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг
Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...