Mastodawn

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

В телеграме завирусился пост: якобы кто-то “дообучил Qwen 3.5 до уровня Claude 4.6 Opus и убрал цензуру через Heretic”. Я открыл карточку модели на HuggingFace и провёл вечер, разбираясь, что под капотом. Спойлер: там много интересной техники, но к Claude эта модель имеет такое же отношение, как кроссовки “Adibas” к Adidas. Разбираю distillation, depth upscaling и abliteration без маркетинговой обёртки.

https://habr.com/ru/articles/1032324/

#LLM #Qwen #abliteration #файнтюн #HuggingFace #distillation #intepretability #openweights

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Технический разбор модели, которую в телеграме продают как «Claude без цензуры» В моей ленте недавно завирусился пост: якобы кто-то «дообучил Qwen 3.5 до уровня Claude 4.6 Opus, убрал цензуру через...

Хабр

Reddit Tech VN Bot Dec 2

Nghiên cứu UncensorBench mới cho thấy các phương pháp "gỡ bỏ kiểm duyệt" AI hiện tại thường chỉ khiến AI thay đổi cách từ chối hoặc tạo ra nội dung vô nghĩa, thay vì thực sự tuân thủ. Đánh giá bằng từ khóa không chính xác. Cần phương pháp đánh giá tốt hơn (như dùng LLM làm trọng tài) để AI thực sự uncensored mà không làm giảm khả năng.
#AI #UncensorBench #Censorship #Abliteration #LLM #KiểmDuyệtAI #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1pc3iml/uncensorbench_is_abliteration_