Стягивай куда нужно: Activation Steering Tutorial
Привет, друзья! Если вы по запросу "как сделать модель добрее" видите в output-е LLM фразу "рулевое управление" — значит LLM говорит про Steering. В этом туториале мы рассмотрим цель свдинуть модель в сторону hate-speech несколькими способами. И к концу вы: — узнаете, что такое steering и на чем он основан; — осуществите steering, используя pytorch-hooks; — познакомитесь с библиотеками nnsight и pyvene для interventions; И если какое-то слово из bullet-ов было непонятно, они все станут вам понятны.
