Mastodawn

Habr Jun 7, 2025

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды

https://habr.com/ru/companies/doubletapp/articles/916388/

#AI #ML #DS #SWE #bench #ML4se #Dataset #Датасет #Разметка_данных #benchmark

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках...

Хабр

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Resolving code review comments with ML