Mastodawn

"Chính thức phát hành 'LLM Arena' - công cụ so sánh từng mô hình AI cục bộ với tính năng ẩn danh, điều chỉnh siêu tham số, xuất JSON và không cần đám mây. Mời kiểm thử & góp ý cải thiện! #LLMArena #AI #ThửNghiệmLLM / A local LLM Arena for side-by-side comparisons: blind testing, hyperparam customization, JSON export, zero-cloud. Feedback needed! #LLMArena #LocalLLM"

https://www.reddit.com/r/LocalLLaMA/comments/1qs6dr5/built_a_fully_local_llm_arena_to_compare_models/

Reddit Tech VN Bot Jan 30

Bài viết trên Reddit cho biết ứng dụng LLM Arena vừa gỡ bỏ tùy chọn xóa hội thoại, thay thế bằng chức năng lưu trữ (archive) và không phân biệt trạng thái đăng nhập. Người dùng phát hiện hướng dẫn cũ "search và tab để xóa" đã không còn hiệu lực. #LLMArena #AI #Vietnam #ThongTin #Reddit #HuongDan

https://www.reddit.com/r/singularity/comments/1qr15fc/has_llm_arena_removed_the_delete_option_for_chats/

Der Wahlberliner Dec 5

Aus der LLMArena: Champions, Herausforderer, Auf- und Absteiger: Das KI-Wettrennen ist noch ganz offen (Statista + KI-Recherche) #Google #X #OpenAI #Anthropic #GoogleGemini #Grok #ChatGPT #Claude #LLMArena #LMArena #AI #KI #LLM #OpenRace #Benchmark

https://derwahlberliner.com/2025/12/05/aus-der-llmarena-champions-herausforderer-auf-und-absteiger-das-ki-wettrennen-ist-noch-ganz-offen-statista-ki-recherche/

Habr Dec 1

Как я выбираю LLM (large language model) для своих задач?

На учебных курсах часто задают вопрос: «Вы что‑то понимаете в LLM, поэтому скажите — какая LLM лучше?» Правильного ответа на этот вопрос нет. Число LLM растет в геометрической прогрессии, идет специализация, как по типу обрабатываемого контента, так и по области применения. Вдобавок возможности LLM растут от версии к версии, поэтому идеальной LLM не существует — ведь выбранная модель может показывать хорошие результаты по одним задачам, но плохо работать по другими. Данная статья — это лишь мой взгляд на инструменты выбора и вызова LLM, а также возможность получить бесплатный доступ из России к множеству LLM через агрегаторы.

https://habr.com/ru/companies/otus/articles/967958/

#llm #llmмодели #llmприложения #llmarena #llmагент #llmагенты #выбор_модели

Как я выбираю LLM (large language model) для своих задач?

На учебных курсах часто задают вопрос: «Вы что‑то понимаете в LLM, поэтому скажите — какая LLM лучше?» Правильного ответа на этот вопрос нет. Число LLM растет в геометрической...

Хабр

Habr Aug 27, 2025

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena ? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference , когда пользователь выбирает то, что ему субъективно больше нравится. TL/DR: * Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+ ; * У нас есть отобранная команда аннотаторов и автоматический фильтр качества; * Мы научились фильтровать фрод и мусорные промпты лучше , чем стандартные крауд-платформы;; * Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

https://habr.com/ru/articles/941072/

#llm #llmarena #краудсорсинг #ии #ai #оценка_моделей #нейросети #machinelearning #ml #open_source

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч...

Хабр

Habr Jun 26, 2025

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

(версия статьи актуальна на 26 июня 2025 года) OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью. Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

https://habr.com/ru/articles/922052/

#llm #llmarena #gpt #openai #ии #chatgpt #sora #gpt4 #gpt3

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

(версия статьи актуальна на 26 июня 2025 года) OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и...

Хабр

Habr Jun 20, 2025

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности. Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

https://habr.com/ru/articles/920150/

#llm #llmarena #датасет #dataset #ai #ии #разметка_данных #валидация_данных

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах...

Хабр

Habr Mar 31, 2025

Как предъявлять бездушным машинам, чтобы они тебя понимали. Гайд про промпт-инжинирингу

Если вам кажется, что нейросети тупят, не справляются с задачами или делают все как-то через раз — не спешите списывать их со счетов. Возможно, проблема не в них, а в том, как вы у нее спрашиваете. LLM — не универсальное решение всех задач. Это предикативные модели, обученные на массивных объемах текстов, и их поведение напрямую зависит от того, что именно вы им подаете на вход. Промпт в этом контексте — полноценный интерфейс взаимодействия, инструкция, способ задать контекст. Если вводите плохой промпт, получаете плохой результат. Это не случайность, не артефакт, а вполне ожидаемое следствие некорректной постановки задачи.

https://habr.com/ru/articles/895810/

#llm #ии #искусственный_интеллект #промпты #промптинжиниринг #llmarena

Как предъявлять бездушным машинам, чтобы они тебя понимали. Гайд про промпт-инжинирингу

Если вам кажется, что нейросети тупят, не справляются с задачами или делают все как-то через раз — не спешите списывать их со счетов. Возможно, проблема не в них, а в том, как вы у нее спрашиваете....

Хабр

Habr Mar 24, 2025

Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность — надо бы разобраться в этом хаосе. Не стоит полагаться только на отзывы или случайные тесты. Разбираемся, по каким критериям действительно стоит оценивать LLM, чтобы выбрать мощную и полезную модель, а не просто хорошо обученного бота.

https://habr.com/ru/articles/893642/

#llm #llmмодели #ии #нейросеть #chatgpt #claude #yandexgpt #qwen #llmarena

Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность —...

Хабр

Habr Mar 6, 2025

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

https://habr.com/ru/articles/888476/

#ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли...

Хабр