Комментарии к докладу

А. Плахов по поводу гибридного алгоритма обучения персептрона.

Интересно, что автор пытается решить две задачи (избавиться от проблемы переобучения и избежать попаданий в "локальные ямы"). Но, фактически, подобными подходами можно успешно решать третью, гораздо более интересную: поиск и использование инвариантов входа при построении структуры персептрона (а я думал, в рамках нейронных сетей это невозможно...). Я попытаюсь описать свой, более простой алгоритм, чем-то похожий на представленный supremum'ом, который специально "заточен" под поиск и использование инвариантов.

Структура будет состоять из двух "метаслоев". Первый метаслой состоит из нескольких (меньше, чем число входов) "маленьких" (в смысле количества нейронов и связей) "персептрончиков", каждый из которых имеет выход размерности 1. Второй метаслой получает на вход только выходы "персептрончиков" первого метаслоя, и представляет собой один персептрон фиксированной структуры.

Обучать его мы будем так: возьмем "стадо" таких персептронов, и будем обучать стандартным ГА. При этом мутацией будет небольшое изменение связей "персептрончиков"первого слоя, а скрещиванием - создание новой особи, при которой часть "персептрончиков" берется от одного предка, а часть - от другого. Второй слой обучается отдельно для каждой особи обычными методами (н-р обратным распространением ошибки).

Вот ключевая идея: критерием жизнеспособности "особи" является ее скорость обучения (например, то, насколько мала стала ошибка после двух-трех проходов по обучающей выборке).

Как и зачем это работает? Очень просто: максимальная выживаемость особи достигается в том случае, когда ее первый слой реализует преобразование, которое факторизует вход по всем инвариантам, присущим обучающей выборке. Ведь в этом случае один шаг обучения любым градиентным методом эквивалентен нескольким шагам для особи, которая преобразует вход "как-нибудь".

Фактически, в случае такого метода обучения каждый из таких "персептрончиков" и представляет собой что-то вроде превусловутого "гештальта" психологов.

Вообще, легко понять, как можно скомбинировать элементы гибридного алгоритма supremum'a и вышеизложенную идею, чтобы получить метод обучения многослойного персептрона, решающий все три задачи. Также можно подумать о видоизменении алгоритма, позволяющем увеличивать количество "метаслоев". Думаю, это и есть самый интересный путь.

Если то, что я тут написал, непонятно, я изложу подробнее, возможно, отдельным материалом, а не в комментариях. Если у кого есть что добавить по этому поводу - пишите мне.