Люди-архиваторы, или как работают обратные аналогии

Когда-то я посмотрел очень полезное видео про ML, где для аналогии нейронной сети приводилось понятие архиватора. Помню меня это впечатлило и определённо расширило кругозор. Странно, почему тогда я сразу не перенёс это на людей – скорее всего потому, что принято брать мозг за эталон и с него примерять разные наряды на искусственные нейронные сети, а не наоборот.

https://habr.com/ru/articles/939452/

#AI #llm #ии #ии_и_машинное_обучение #gpt #chain_of_thoughts #нейросети #нейронные_сети #архитектуры_ai

Люди-архиваторы, или как работают обратные аналогии

Когда‑то я посмотрел очень полезное видео про ML, где для аналогии нейронной сети приводилось понятие архиватора. Помню меня это впечатлило и определённо расширило кругозор. Странно, почему...

Хабр

[Перевод] LLM и их хрупкая логика: новое исследование ставит под сомнение Chain-of-Thought

Новое исследование учёных из Университета штата Аризона показывает: знаменитое «цепочечное рассуждение» (Chain-of-Thought, CoT) в больших языковых моделях (LLM) скорее похоже на «хрупкий мираж», чем на проявление подлинного интеллекта. Эта работа продолжает традицию критического анализа глубины рассуждений LLM, но в отличие от предыдущих исследований предлагает уникальный взгляд через призму «распределения данных», который позволяет понять, где и почему CoT систематически даёт сбой.

https://habr.com/ru/companies/technokratos/articles/939072/

#большие_языковые_модели #искусственный_интеллект #ai #llm #cot #chain_of_thoughts

LLM и их хрупкая логика: новое исследование ставит под сомнение Chain-of-Thought

Новое исследование учёных из Университета штата Аризона показывает: знаменитое «цепочечное рассуждение» (Chain-of-Thought, CoT) в больших языковых моделях (LLM) скорее похоже на «хрупкий мираж», чем...

Хабр

[Перевод] LLM-судья: как LLM отсекает правду от лжи?

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM. Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов. Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать. Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge : для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!

https://habr.com/ru/articles/905728/

#llm #промпт #chain_of_thoughts #ai #ии #искусственный_интеллект #rag #qa #ai_agent

LLM-судья: как LLM отсекает правду от лжи?

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM. Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой...

Хабр

[Перевод] Для чего на самом деле используется генеративный ИИ в 2025 году

В 2025 году генеративный ИИ перестал быть игрушкой для экспериментов и стал полноценным инструментом — интегрированным в повседневность, рабочие и личные активности. Сценарии его использования сместились от чисто технических к экзистенциальным: от автоматизации рутинных задач до поддержки ментального здоровья и осмысления целей. В статье — свежий срез реальных кейсов применения LLM, собранных из сотен обсуждений на Reddit и других платформах, которые показывают, как меняется взаимодействие между человеком и ИИ в условиях зрелой пользовательской среды.

https://habr.com/ru/companies/otus/articles/905444/

#custom_GPT #LLM #генеративный_ИИ #AIассистенты #chain_of_thoughts #практическое_применение_ИИ

Для чего на самом деле используется генеративный ИИ в 2025 году

Резюме За последний год генеративный ИИ стал значительно доступнее, функциональнее и глубже интегрирован в повседневную жизнь. Появились новые модели (DeepSeek, Grok, новые версии GPT), улучшились...

Хабр

[Перевод] Анализ DeepSeek R1-Zero и R1

Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

https://habr.com/ru/articles/877942/

#инференс #deepseek #chatgpt #openai #chain_of_thoughts

Анализ DeepSeek R1-Zero и R1

R1-Zero важнее, чем R1 Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для...

Хабр

Стеганография в LLM и защита от нее

В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.

https://habr.com/ru/articles/832326/

#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

Стеганография в LLM и защита от нее

Из Lanham et al. 2023, Measuring Faithfulness in Chain-of-Thought Reasoning прошлый раз разбирали Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга, и то, что они...

Хабр

Не любой In-context learning одинаково полезен

Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.

https://habr.com/ru/articles/832310/

#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

Не любой In-context learning одинаково полезен

Есть такая стратегия в AI Alignment - Scalable Oversight - Масштабируемый контроль. Проблема для стратегии формулируется коротко так - вот будет у нас сильный, мощный и очень умный AGI, а мы слабые и...

Хабр

Prompt engineering — путь к эффективной работе с ChatGPT

Привет, Хабр! Меня зовут Илья Козырёв, я — CTO и сетевой Co-Founder в Raft. Много работал в консалтинге в сфере ритейла и фармацевтики, имею экспертизу в обработке данных, специализируюсь на ML/AI. А ещё я — участник опенсорсного продукта по обработке данных Apache Beam, помогаю запускать продукт по ценообразованию. В этой статье расскажу, как эффективно работать с ChatGPT в разных задачах и архитектуре. Многие пробовали, но не у всех получилось.

https://habr.com/ru/companies/oleg-bunin/articles/813853/

#LLM #языковые_модели #промпты #промптинг #искусственный_интеллект #gpt #chatgpt #prompt #ZeroOneFewShot #chain_of_thoughts

Prompt engineering — путь к эффективной работе с ChatGPT

Привет, Хабр! Меня зовут  Илья Козырёв, я — CTO и Co-Founder в Raft. Много работал в консалтинге в сфере ритейла и фармацевтики, имею экспертизу в обработке данных, специализируюсь на ML/AI. А...

Хабр