NEURAL TANGENT KERNEL EIGENVALUES ACCURATELY PREDICT GENERALIZATION

Поиск количественной теории обобщения нейронных сетей долгое время был центральная цель исследования глубокого обучения. Мы расширяем последние результаты, чтобы продемонстрировать что, исследуя собственную систему «нейронного касательного ядра» нейронной сети, можно предсказать эффективность его обобщения при изучении произвольных функций. Наша теория точно предсказывает не только среднеквадратическую ошибку теста, но и все статистика второго порядка изученной функции сети. Кроме того, используя мера, определяющая «обучаемость» данной целевой функции, мы доказываем новую Теорема «без бесплатного обеда», характеризующая фундаментальный компромисс в индуктивной смещение широких нейронных сетей: улучшение обобщения сети для заданного целевая функция должна ухудшить свое обобщение для ортогональных функций. Далее мы демонстрируем полезность нашей теории, аналитически предсказывая два удивительных явления - неслучайное обобщение трудных для изучения функций и кривые немонотонных ошибок в режиме малых данных, которые мы впоследствии наблюдайте в экспериментах. Хотя наша теория выведена для архитектур бесконечной ширины, мы находим, что она согласуется с сетями шириной до 20, предполагая, что это предсказание обобщения в практических нейронных сетях.
Ссылка