Najnowszy benchmark EnterpriseOps-Gym, zaprezentowany przez ServiceNow Research, ujawnia znaczące ograniczenia modeli językowych w złożonych zadaniach korporacyjnych. Nawet najpotężniejsze systemy, takie jak Claude 4.5 czy GPT-5, nie przekraczają 40% skuteczności w realistycznych scenariuszach operacyjnych.
#si #ai #sztucznainteligencja #wiadomości #informacje #technologia
https://aisight.pl/agenci-ai/bariera-operacyjna-ai-korporacyjne-wyzwania/

Bariera operacyjna AI: ServiceNow Research rzuca wyzwanie autonomicznym agentom w środowisku biznesowym
Najnowszy benchmark EnterpriseOps-Gym, zaprezentowany przez ServiceNow Research, ujawnia znaczące ograniczenia modeli językowych w złożonych zadaniach korporacyjnych. Nawet najpotężniejsze systemy, takie jak Claude 4.5 czy GPT-5, nie przekraczają 40% skuteczności w realistycznych scenariuszach operacyjnych.







