Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Один из самых частых вопросов от бизнеса: «Сколько и какого железа нужно, чтобы развернуть ИИ-агента у нас на серверах?». В новом on-premise проекте нам нужно было оценить, сколько одновременных диалогов вытянет связка из двух RTX Pro 6000 Blackwell и модели GPT-OSS-120B. Популярный калькулятор пообещал 5000 токенов в секунду, но реальность оказалась в 5 раз медленнее! В статье рассказываю, как правильно считать ресурсы под LLM, почему формулы ломаются на нестандартном железе и как мы устроили хардкорный краш-тест, чтобы дать заказчику железные гарантии.

https://habr.com/ru/companies/llmstart/articles/1046722/

#llm #ai #gpu #onpremise #agent #performance #tps #ttft #tokens

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Сколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM Мы в LLMStart.ru делаем AI-системы для бизнеса. Часто работаем с on-premise — это закрытые контуры, где безопасность не...

Хабр
GitHub - dtnewman/burn-baby-burn: Be the most productive engineer on your team 🚀🚀🚀

Be the most productive engineer on your team 🚀🚀🚀. Contribute to dtnewman/burn-baby-burn development by creating an account on GitHub.

GitHub

VS Code zero-day enables one-click theft of GitHub OAuth tokens via malicious extensions and github.dev webview abuse. 🔐
The flaw can expose broad repo access through token reuse, with Microsoft saying mitigations are in place while a public exploit is already released. 🧩

🔗 https://www.bleepingcomputer.com/news/security/vs-code-zero-day-lets-hackers-steal-github-tokens-in-one-click/

#TechNews #Cybersecurity #VisualStudio #Coding #VSCode #GitHub #Microsoft #ZeroDay #OAuth #Infosec #Hacking #Malware #DevTools #Security #Exploit #DataTheft #ThreatIntel #Tokens

VS Code zero-day lets hackers steal GitHub tokens in one click

A security researcher has released exploit code for a Visual Studio Code (VS Code) zero-day vulnerability that allows attackers to steal GitHub authentication tokens by tricking users into clicking a link.

BleepingComputer

P-ERC-20: Tokens privados no Ethereum

Quer saber como o Ethereum pode fazer transações realmente privadas? 👀

- P-ERC-20: um novo padrão de token criado sobre o Ethereum que adiciona privacidade ao tradicional ERC-20.
- Funciona como um ERC-20 padrão, mas com confidencialidade:
• Não revela as quantias transferidas 🔒
• Não expõe as partes envolvidas na transação 🤐
- Objetivo: permitir usar a própria rede pública do Ethereum...

#PERC20 #Privacidade #Ethereum #Tokens #Web3 #MorningCrypto

Токен-оптимизация агентов: на что уходит контекстное окно MCP

Чем больше задач берёт на себя агент, тем чаще он упирается не в качество модели, а в контекстное окно: туда нужно уместить инструкции, историю диалога, схемы инструментов и всё, что эти инструменты возвращают. Я считаю, что токен-оптимизация агентов — то, как мы расходуем это окно — станет одним из ключевых направлений ближайших лет, наравне с выбором модели и качеством промпта.

https://habr.com/ru/articles/1046203/

#mcp #claude #anthropic #llm #aiагенты #opensource #contextengineering #ai #claudecode #tokens

Токен-оптимизация агентов: на что уходит контекстное окно MCP

Чем больше задач берёт на себя агент, тем чаще он упирается не в качество модели, а в контекстное окно: туда нужно уместить инструкции, историю диалога, схемы инструментов и всё, что эти инструменты...

Хабр
Doing some #ai took testing today and I have watched both #Qwen3.6 and #Gemma4 get into a loop while trying to hallucinate the code needed to solve the problem I was using to compare them. I wonder how many #tokens both burnt through by not being able to recognize they were in a loop and self correct. Luckily both local so no real costs, just time wasted and negative scores for both. LLMs still need to address a lot of the fundamental architecture issues and optimisations to be reliable tools

Your Moat Is Their Cost

#tokens #anthropic #claude

Hack de US$32M em projeto de identidade descentralizada

Você confiaria sua identidade a um projeto “descentralizado” depois disso? 😳

- 🔍 O que aconteceu:
- Projeto de identidade descentralizada teve a chave privada hackeada 🔐
- Tokens foram drenados de 17 wallets e vendidos na sequência 💸
- Estimativa do prejuízo: cerca de US$32 milhões 😱

- ⚠️ Por que isso é importante:
- Mostra a...

#blockchain #segurança #crypto #identidadedescentralizada #hack #tokens #MorningCrypto

[Must read] "IA : la revanche des imbéciles", où @hubertguillaud donne ds son excellent @danslesalgorithmes à lire les extraits d'un INDISPENSABLE texte rageux - mais particulièrement savoureux - de Ed Zitron sur l' #IA 👏https://danslesalgorithmes.net/stream/ia-la-revanche-des-imbeciles/
#AI #LLM #management #GenAI #idiocracy #IAgen #tokens
IA : la revanche des imbéciles

« LIA est un concentré de concepts dorganisations ratés, et lapogée de lère des incompétents, une époque où nous sommes dirigés par des ...

MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

#HackerNews #MiMo #v2.5 #Pro #UltraSpeed #1T #1000 #tokens #technology #innovation

Xiaomi MiMo, Explore and Love

MiMo, in collaboration with TileRT, releases the UltraSpeed mode of Xiaomi MiMo-V2.5-Pro — breaking 1000 tokens/s generation speed on a 1T-parameter model for the first time on commodity GPUs through extreme model-system codesign.