Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
Claude Opus 4.7 costs 20–30% more per session
https://www.claudecodecamp.com/p/i-measured-claude-4-7-s-new-tokenizer-here-s-what-it-costs-you
#HackerNews #ClaudeOpus #Claude4.7 #AIcosts #Tokenizer #TechNews
ぐれーぷ@llama.cppウォッチャー (@2022_technology)
llama.cpp에 Gemma 4의 마지막 주요 수정사항이 머지됐다. 일본어에 큰 영향을 주는 토크나이저 관련 수정으로, Gemma 4 벤치마크를 다시 확인해야 할 정도로 중요한 업데이트다.
#Development #Launches
Syntaqlite Playground · Parse, format, validate, and tokenize SQLite queries, https://ilo.im/16by65
_____
#Parser #Formatter #Validator #Tokenizer #SQL #SQLite #Databases #Server #WebDev #Backend
chibicc-dumper makes public.
A JSON dumper tool derived from chibicc that can output C language tokens and ASTs.
This is a small tool that extracts token sequences and ASTs from C source code and outputs them as JSON.
With this tool, generating bridge code—such as FFI—from C source code becomes easier than before.
Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG
Платные модели embedding не гарантируют качество на малоресурсных языках. На задаче кроссязыкового сопоставления EPG-заголовков (EN/RU/HY) бесплатная LaBSE набирает R@1 = 0,83, а OpenAI text-embedding-3-large -- 0,21. Протестировано 19 моделей, код и данные открыты.
https://habr.com/ru/articles/1008422/
#embedding #openai #малоресурсный_язык #sentencetransformers #tokenizer #iptv #epg #benchmark #эмбеддинг

Текст написан автором и отредактирован с помощью ИИ TL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень...
Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python
Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.
https://habr.com/ru/articles/977210/
#проза #поэзия #писатель #python #pymorphy #tokenizer #spacy #wordnet
Константина Паустовского называют одним из писателей, проза которого "звучит" или "светится". Частное эмоциональное впечатление от чтения таких текстов – радостное и возвышенное. Иные поклонники...
Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной
Творческие секреты поэтессы глазами кода. Что анализ фонетики на Python рассказывает о "шестидесятниках".
https://habr.com/ru/articles/974658/
#python #tokenizer #чтение #книги #поэзия #проза #ахмадулина
Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского
Можно ли было читать советские стихи американцам? Пытаюсь выяснить это с помощью Python на примере Андрея Вознесенского.
https://habr.com/ru/articles/972880/
#python #tokenizer #stanford #pandas #nlp #nltk #чтение #поэзия #проза #говнокод
Я пена морская. Как BERT не справился с анализом простой поэзии
Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.
https://habr.com/ru/articles/971172/
#python #nltk #tokenizer #литература #чтение #поэзия #поэзия_серебряного_века #поэзия_и_проза #поэзия_и_поэты_серебряного_века #поэзия_и_интернет
Splintr - một BPE tokenizer mới viết bằng Rust với Python bindings - đã ra mắt! Nhanh hơn tiktoken của OpenAI (3-4x đơn, 10-12x batch), hỗ trợ streaming decoder và 54 token đặc biệt. Tương thích với vocab cl100k_base, o200k_base. Tác giả đang mong nhận phản hồi từ cộng đồng.
#Rust #Python #Tokenizer #LLM #AI #OpenSource #Splintr #CôngNghệ
https://www.reddit.com/r/LocalLLaMA/comments/1p71luf/bpe_tokenizer_in_rust_would_love_feedback_from/