"Chính thức phát hành 'LLM Arena' - công cụ so sánh từng mô hình AI cục bộ với tính năng ẩn danh, điều chỉnh siêu tham số, xuất JSON và không cần đám mây. Mời kiểm thử & góp ý cải thiện! #LLMArena #AI #ThửNghiệmLLM / A local LLM Arena for side-by-side comparisons: blind testing, hyperparam customization, JSON export, zero-cloud. Feedback needed! #LLMArena #LocalLLM"

https://www.reddit.com/r/LocalLLaMA/comments/1qs6dr5/built_a_fully_local_llm_arena_to_compare_models/

Bài viết trên Reddit cho biết ứng dụng LLM Arena vừa gỡ bỏ tùy chọn xóa hội thoại, thay thế bằng chức năng lưu trữ (archive) và không phân biệt trạng thái đăng nhập. Người dùng phát hiện hướng dẫn cũ "search và tab để xóa" đã không còn hiệu lực. #LLMArena #AI #Vietnam #ThongTin #Reddit #HuongDan

https://www.reddit.com/r/singularity/comments/1qr15fc/has_llm_arena_removed_the_delete_option_for_chats/

Как я выбираю LLM (large language model) для своих задач?

На учебных курсах часто задают вопрос: «Вы что‑то понимаете в LLM, поэтому скажите — какая LLM лучше?» Правильного ответа на этот вопрос нет. Число LLM растет в геометрической прогрессии, идет специализация, как по типу обрабатываемого контента, так и по области применения. Вдобавок возможности LLM растут от версии к версии, поэтому идеальной LLM не существует — ведь выбранная модель может показывать хорошие результаты по одним задачам, но плохо работать по другими. Данная статья — это лишь мой взгляд на инструменты выбора и вызова LLM, а также возможность получить бесплатный доступ из России к множеству LLM через агрегаторы.

https://habr.com/ru/companies/otus/articles/967958/

#llm #llmмодели #llmприложения #llmarena #llmагент #llmагенты #выбор_модели

Как я выбираю LLM (large language model) для своих задач?

На учебных курсах часто задают вопрос: «Вы что‑то понимаете в LLM, поэтому скажите — какая LLM лучше?» Правильного ответа на этот вопрос нет. Число LLM растет в геометрической...

Хабр

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena ? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference , когда пользователь выбирает то, что ему субъективно больше нравится. TL/DR: * Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+ ; * У нас есть отобранная команда аннотаторов и автоматический фильтр качества; * Мы научились фильтровать фрод и мусорные промпты лучше , чем стандартные крауд-платформы;; * Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

https://habr.com/ru/articles/941072/

#llm #llmarena #краудсорсинг #ии #ai #оценка_моделей #нейросети #machinelearning #ml #open_source

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч...

Хабр

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

(версия статьи актуальна на 26 июня 2025 года) OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью. Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

https://habr.com/ru/articles/922052/

#llm #llmarena #gpt #openai #ии #chatgpt #sora #gpt4 #gpt3

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

(версия статьи актуальна на 26 июня 2025 года) OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и...

Хабр

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности. Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

https://habr.com/ru/articles/920150/

#llm #llmarena #датасет #dataset #ai #ии #разметка_данных #валидация_данных

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах...

Хабр

Как предъявлять бездушным машинам, чтобы они тебя понимали. Гайд про промпт-инжинирингу

Если вам кажется, что нейросети тупят, не справляются с задачами или делают все как-то через раз — не спешите списывать их со счетов. Возможно, проблема не в них, а в том, как вы у нее спрашиваете. LLM — не универсальное решение всех задач. Это предикативные модели, обученные на массивных объемах текстов, и их поведение напрямую зависит от того, что именно вы им подаете на вход. Промпт в этом контексте — полноценный интерфейс взаимодействия, инструкция, способ задать контекст. Если вводите плохой промпт, получаете плохой результат. Это не случайность, не артефакт, а вполне ожидаемое следствие некорректной постановки задачи.

https://habr.com/ru/articles/895810/

#llm #ии #искусственный_интеллект #промпты #промптинжиниринг #llmarena

Как предъявлять бездушным машинам, чтобы они тебя понимали. Гайд про промпт-инжинирингу

Если вам кажется, что нейросети тупят, не справляются с задачами или делают все как-то через раз — не спешите списывать их со счетов. Возможно, проблема не в них, а в том, как вы у нее спрашиваете....

Хабр

Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность — надо бы разобраться в этом хаосе. Не стоит полагаться только на отзывы или случайные тесты. Разбираемся, по каким критериям действительно стоит оценивать LLM, чтобы выбрать мощную и полезную модель, а не просто хорошо обученного бота.

https://habr.com/ru/articles/893642/

#llm #llmмодели #ии #нейросеть #chatgpt #claude #yandexgpt #qwen #llmarena

Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность —...

Хабр

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

https://habr.com/ru/articles/888476/

#ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли...

Хабр