Геометрия ландшафта потерь и «понимание» нейросети

Когда нейросеть обучается, ее функция потерь образует сложный ландшафт в пространстве параметров – с вершинами (области высокой ошибки) и долинами (области низкой ошибки). Свойства этого ландшафта – его кривизна , форма минимальных долин, спектр матрицы Гессе и пр. – могут многое рассказать о том, насколько модель усвоила закономерности данных . Идея состоит в том, что не все минимумы одинаковы: одни могут быть «плоскими» (широкими и неглубокими), другие «острыми» (узкими и крутыми). Считается, что геометрия такого минимума связана с тем, как хорошо модель обобщает знания за пределы обучающих примеров и насколько «осмысленно» (семантически обоснованно) она их усвоила. В данном обзоре мы рассмотрим, как характеристики ландшафта потерь служат индикаторами обобщающей способности , интерпретируемости , адаптивности модели и ее чувствительности к семантике данных, а также какие количественные метрики предложены для измерения этих свойств.

https://habr.com/ru/articles/906374/

#машинное_обучение #нейросети #функция_потерь #Гессиан #ландшафт_ошибки #обобщение #интерпретируемость #flat_minima #PACBayes

Геометрия ландшафта потерь и «понимание» нейросети

Введение Когда нейросеть обучается, ее функция потерь образует сложный ландшафт в пространстве параметров – с вершинами (области высокой ошибки) и долинами (области низкой ошибки). Свойства этого...

Хабр

Loss Landscape Analysis — новая библиотека для анализа точности обучения и оценки обобщающей способности нейросетей

Мой коллега Никита Габдуллин работает в Отделе перспективных исследований ИТ-компании «Криптонит». Он автор библиотеки Loss Landscape Analysis (LLA) и научной статьи о ней, препринт которой доступен на английском языке. Здесь мы публикуем адаптированную русскоязычную статью с некоторыми вольностями, которые не приняты в академической среде, но упрощают восприятие текста. При работе с нейросетями-классификаторами у всех на слуху какие-то известные архитектуры, которые характеризуются числом параметров, скоростью вычислений (инференса), точностью выполнения той или иной известной задачи. Популярны соревнования, посвящённые тому, насколько точно можно решить задачу классификации на типовых датасетах, и часто борьба уже идёт за доли процента [ PWC ]. Однако в реальных задачах нейросети часто показывают себя куда хуже, чем в «лабораторных» условиях, что переводит акццнт внимания с тренировочных и тестовых (train-test) задач на проверку обобщающей способности (generalization) нейросетей. В наших работах мы столкнулись с тем, что нейросети одного типа могут иметь практически идентичные показатели train-test, но демонстрировать кардинально отличающиеся результаты на датасетах, отличных от тренировочного. Без углублённого анализа непонятно, за счёт чего возникают такие эффекты. Поэтому для таких нейросетей очень сложно выполнить оценку их реальной обобщающей способности. Это вдохновило нас на поиски методов, которые позволили бы проанализировать обобщающую способность нейросети с теми или иными весами, среди которых метод построения ландшафта функции потерь (loss landscape) показался интересным кандидатом. В интернете несложно найти чрезвычайно красивые визуализации результатов анализа ландшафта функции потерь [ LLcom ], некоторые из которых даже пытаются продавать как произведения искусства. Однако, любуясь такими картинами, легко забыть, что это — в первую очередь инструмент анализа каких-то свойств нейросетей. Получение красивых картинок — средство, а не цель. Найти хорошую библиотеку по данной тематике для применения в исследовательской работе оказалось куда сложнее, чем найти сайты с красивыми картинками.

https://habr.com/ru/companies/kryptonite/articles/877122/

#loss #landscape #analysis #обобщение #функция_потерь #анализ #визуализация #нейросети #нейронные_сети #машинное_обучение

Loss Landscape Analysis — новая библиотека для анализа точности обучения и оценки обобщающей способности нейросетей

Мой коллега Никита Габдуллин работает в Отделе перспективных исследований ИТ-компании «Криптонит». Он автор библиотеки Loss Landscape Analysis (LLA) и научной статьи о ней, препринт которой доступен...

Хабр