I just saw this story on the Recaply AI newsletter.
"Humwork - Connect AI agents with human experts in 30 seconds"
Humwork is the real-time marketplace where AI agents call verified human experts when they get stuck. Add Humwork to any MCP-compatible agent, and when your coding agent, marketing agent, or research agent hits a wall, it gets connected to the right expert in under 30 seconds.
https://www.ycombinator.com/launches/PxH-humwork-connect-ai-agents-with-human-experts-in-30-seconds
TestingCatalog News (@testingcatalog)
Google이 Gemini 데스크톱 앱에 Computer Use 기능 지원을 도입할 계획이다. 사용자가 앱을 통해 컴퓨터 조작형 AI 에이전트 기능을 활용할 수 있게 될 가능성이 있다.
Как измерить LLM для задач кибербеза: обзор открытых бенчмарков
Привет, Хабр! Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам. Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают.
https://habr.com/ru/companies/pt/articles/1023976/
#LLM #benchmarks #aiagent #cybersecurity #ml #ai #ииагенты #opensource