Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл
Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные результаты на практике. Например, сегодня хочу рассказать, как мы подошли к решению задачи детекции галлюцинаций LLM в RAG системах со стороны исследования графов размышлений модели — с помощью интересного фреймворка от Anthropic. В статье поговорим, как использовать cross-layer transcoders и атрибуционные графы для детекции галлюцинаций в RAG системах. Рассмотрим пример реализации детектора на графах для анализа модели Qwen2.5-7B и практические примеры использования. Спойлер : на простой реализации получили точность детекции 85% на тестовом датасете.
https://habr.com/ru/companies/redmadrobot/articles/951118/
#circuit #tracing #галлюцинации #детектор #интерпретируемость #llm #rag #transcoder #атрибуционная_модель_данных #граф