Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды

https://habr.com/ru/companies/doubletapp/articles/916388/

#AI #ML #DS #SWE #bench #ML4se #Dataset #Датасет #Разметка_данных #benchmark

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках...

Хабр

Today's #ASE2023 keynote on "resolving code review comments with ML".

Presented by Danny Tarlow (Google Deepmind).

Blog: https://blog.research.google/2023/05/resolving-code-review-comments-with-ml.html

Based on the DIDACT "Large sequence models for software development activities". https://blog.research.google/2023/05/large-sequence-models-for-software.html

#ai4se #codereview #ml4se #DannyTarlow #DIDACT

Resolving code review comments with ML