Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

В телеграме завирусился пост: якобы кто-то “дообучил Qwen 3.5 до уровня Claude 4.6 Opus и убрал цензуру через Heretic”. Я открыл карточку модели на HuggingFace и провёл вечер, разбираясь, что под капотом. Спойлер: там много интересной техники, но к Claude эта модель имеет такое же отношение, как кроссовки “Adibas” к Adidas. Разбираю distillation, depth upscaling и abliteration без маркетинговой обёртки.

https://habr.com/ru/articles/1032324/

#LLM #Qwen #abliteration #файнтюн #HuggingFace #distillation #intepretability #openweights

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Технический разбор модели, которую в телеграме продают как «Claude без цензуры» В моей ленте недавно завирусился пост: якобы кто-то «дообучил Qwen 3.5 до уровня Claude 4.6 Opus, убрал цензуру через...

Хабр

Nghiên cứu UncensorBench mới cho thấy các phương pháp "gỡ bỏ kiểm duyệt" AI hiện tại thường chỉ khiến AI thay đổi cách từ chối hoặc tạo ra nội dung vô nghĩa, thay vì thực sự tuân thủ. Đánh giá bằng từ khóa không chính xác. Cần phương pháp đánh giá tốt hơn (như dùng LLM làm trọng tài) để AI thực sự uncensored mà không làm giảm khả năng.
#AI #UncensorBench #Censorship #Abliteration #LLM #KiểmDuyệtAI #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1pc3iml/uncensorbench_is_abliteration_

AI 검열 자동 제거 도구 Heretic: 성능 손실 최소화하며 거부율 97%→3%로

명령어 한 줄로 AI의 안전 정렬을 제거하는 Heretic 도구. 기존 방식보다 6배 낮은 성능 손실로 거부율을 97%에서 3%로 낮춥니다.

https://aisparkup.com/posts/6592