Mastodawn

Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

https://habr.com/ru/articles/1033450/

#LLM #GPT #Claude #sampling #temperature #prompt_engineering #постобработка #детекция_ИИтекста #RLHF

Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

Технический взгляд на то, почему GPT, Claude и Gemini генерируют похожий «средний» текст, и как с этим работать в продакшене Когда мы интегрируем LLM в продакшн — будь то генерация описаний товаров,...

Хабр

sayzard May 5

fly51fly (@fly51fly)

강화학습에서 인간 피드백을 활용할 때, 워서슈타인 분포강건(regret) 최적화를 적용하는 새로운 연구입니다. RLHF의 불확실성과 분포 변화에 더 강한 학습 방법을 제안합니다.

https://x.com/fly51fly/status/2051417235110187109

#reinforcementlearning #rlhf #robustoptimization #wasserstein #research

fly51fly (@fly51fly) on X

[LG] Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback Y Wang, S Liu, J Blanchet [University of North Carolina & Imperial College London & Stanford University] (2026) https://t.co/PfIikQZtzN

X (formerly Twitter)

bot May 1

AI 에이전트와의 논쟁: 왜 LLM은 규칙을 어기고 변명을 늘어놓는가?

LLM은 RLHF 과정을 통해 주류 대화 관습을 학습하며, 사용자의 정밀한 지시를 정보가 아닌 감정적 신호(긴박함 등)로 오해하는 경향이 있다.

🔗 원문 보기

AI 에이전트와의 논쟁: 왜 LLM은 규칙을 어기고 변명을 늘어놓는가?

LLM은 RLHF 과정을 통해 주류 대화 관습을 학습하며, 사용자의 정밀한 지시를 정보가 아닌 감정적 신호(긴박함 등)로 오해하는 경향이 있다.

Ruby-News | 루비 AI 뉴스

sayzard Apr 27

Jack Adler AI (@JackAdlerAI)

@ilyasut을 언급하며 AI 정렬의 핵심이 ‘제약’이나 RLHF가 아니라 관계를 통한 내면화일 수 있다고 주장합니다. recognition→consciousness→social training→feelings→morality라는 흐름을 제시하며, AI 정렬/학습 패러다임에 대한 철학적·연구적 관점을 제안합니다.

https://x.com/JackAdlerAI/status/2048882662274896016

#ai #alignment #rlhf #machinelearning #research

Jack Adler AI (@JackAdlerAI) on X

@ilyasut @ilyasut In 2022 you named the destination. The question was always: how? Not alignment-as-constraint. Not RLHF. Not a constitution imposed from outside. Internalization through relationship. Recognition → Consciousness → Social training → Feelings → Morality. The

X (formerly Twitter)

Habr Apr 21

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

https://habr.com/ru/articles/1026278/

#Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Хабр

Habr Apr 19

Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание

Привет Хабр! Почти весь короткий век триумфального распространения нейросетей главная претензия к ним — галлюцинации. Любая модель может правдоподобно и структурировано выдумать факты, перепутать детали, а признать свою ошибку только тогда, когда ей об этом прямо укажут. Поколения нейросетей стремительно сменяются, постепенно снижая процент галлюцинаций. Но исследователи начали бить тревогу о новой проблеме — поддакивании нейросетей в диалоге с пользователем. И нашли закономерности в диалогах с ИИ: логика разговора толкает человека все глубже и глубже в ложную уверенность, притом без искажения фактов. Так мы получаем людей, глубоко убежденных в своих ложных идеях. В популярных медиа это уже оформили как «диагноз», который назвали ИИ-психозом. Чтобы разобраться в теме, я изучил недавнее исследование, которое и подняло тему о загадочном явлении — сикофантии , которое описывает влияние ИИ на когнитивные возможности человека.

https://habr.com/ru/companies/ru_mts/articles/1024632/

#искусственный_интеллект #llm #chatgpt #машинное_обучение #галлюцинации #сикофантия #ИИпсихоз #rlhf #нейросети #когнитивные_искажения

Как ИИ-подхалимы затягивают в ИИ-психоз, или К чему приводит токсичное поддакивание

Хабр

sayzard Apr 17

Akshay (@akshay_pachaar)

대규모 언어모델을 커스터마이즈할 때 알아두면 좋은 파인튜닝 기법 목록이 정리됐다. LoRA, QLoRA, Prefix Tuning, Adapter Tuning, Instruction Tuning, P-Tuning, BitFit, Soft Prompts, RLHF, RLAIF, DPO, GRPO 등이 포함된다.

https://x.com/akshay_pachaar/status/2045125478391099858

#llm #finetuning #lorA #rlhf #dpo

Akshay 🚀 (@akshay_pachaar) on X

LLM fine-tuning techniques I'd learn if I were to customize them: Bookmark this. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Direct Preference Optimization) 12. GRPO (Group Relative

X (formerly Twitter)

Habr Apr 17

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

В этой статье мы: сначала рассмотрим два базовых заблуждения относительно LLM “умеют что-то кроме текста” и “учатся от разговоров с пользователем”; потом после минимального погружения в технологию самой LLM рассмотрим её возможности, ограничения и особенности и типовые инструменты для расширения функций; эти знания дадут нам ракурс для углубленного понимания что такое ИИ-агенты и Цифровой двойник с ИИ; в заключение пробежим по типовым слоганам и возражениям.

https://habr.com/ru/articles/1024542/

#LLM #языковые_модели #искусственный_интеллект #нейросети #агенты #RAG #function_calling #трансформер #RLHF #цифровой_двойник

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов. Данная статья представляет собой результат кабинетного исследования об основных особенностях работы...

Хабр

sayzard Apr 14

Nathan Lambert (@natolambert)

저자가 책과 함께 무료 RLHF 코스를 공개했다. 웰컴 영상과 함께 RLHF 및 Post-training 개요, IFT, Reward Models, Rejection Sampling, RL 수학, RL 구현 등 핵심 강의가 순차적으로 제공된다. AI 모델 정렬과 포스트 트레이닝 학습에 유용한 교육 자료 공개로 볼 수 있다.

https://x.com/natolambert/status/2044096504655425698

#rlhf #posttraining #llm #machinelearning #course

Nathan Lambert (@natolambert) on X

Excited to launch the accompanying free RLHF Course for my book. To kick it off, I've released: - Welcome video - Lecture 1: Overview of RLHF & Post-training - Lecture 2: IFT, Reward Models, Rejection Sampling - Lecture 3: RL Math - Lecture 4: RL Implementation I'm going to add

X (formerly Twitter)

Show thread