Обучение координации с подкреплением группы роботов на основе измерения скорости затрат ресурсов.

Подробности: Обновлено 07 Ноябрь 2012; Автор: dan er; Просмотров: 10569

Article 781.65 Kb
Poster 1.34 Mb

Авторы: Дан Ерусалимчик, Галь Каминка

Язык статьи: английский.

Краткая аннотация:

Эта статья представляет подход обучения с подкреплением для выбора алгоритма координации, который не только демонстрирует хорошие результаты экспериментов, но и аналитически обоснован.

Для полной аннотации на русском зайти в просмотр статьи.

Автор: Дан Ерусалимчик
Научный руководитель: Галь Каминка.
Факультет компьютерных наук университета Бар-Илан, Израиль.

Работа проводилась в рамках соискания степени Магистра Наук (М.Sc.) и представляет собой Master's Thesis.
Части этой работы были опубликованы на конференциях IAS-10, AAMAS-09, ALA-09 и ICRA-10.

Аннотация:

Многие исследователи мулти-агентных роботизированных систем интересовались методами адаптивной координации для улучшения пространственной координации групп автономных мобильных роботов. Такие методы используют обучение для повышения эффективности выбора метода координации, учитывая динамичные изменения в плотности группы роботов. К сожалению, в то время как их эмпирические успехи очевидны, ни один из этих методов не был объяснен в рамках существующих формальных теорий мульти-агентного обучения. Эта статья представляет подход обучения с подкреплением для выбора алгоритма координации, который не только демонстрирует хорошие результаты экспериментов, но и аналитически обоснован. Мы представляем функцию награды (Индекс Эффективности, EI), который помогает сократить время и ресурсы, расходуемые на координацию и максимизировать время между конфликтами, которые требуют координации. Эта награда вычисляется через оценку скорости, с которой методы координации тратят ресурсы. Мы эмпирически демонстрируем ее успешное использование в обучение с подкреплением без состояний, в ряде областей (таких как реальные роботы AIBO и виртуальная среда симуляции роботов) для задачи фуражирования.
Кроме того, мы аналитически изучим причины, которые позволяют EI хорошо работать. Мы покажем, что при определенных допущениях, задача пространственной координации может моделироваться как игра в матричном виде, в которой выгоды для робота неизвестны заранее, но они могут быть получены с помощью Индекса Эффективности, а использование обучения с подкреплением приведет роботов в максимальный баланс.
После мы применим EI вознаграждение для обучения с подкреплением с учетом множества состояний, и продемонстрируем, что оно может быть использовано в условиях требующих жесткой координации между роботами. Для этого мы проведем серию экспериментов в среде дискретного симулятора, где роботы должны перемещаться по лабиринту с узкими коридорами от одной цели к другой.
А так же продемонстрируем возможность научится на основе Индекса Эффективности не только выбирать способ, но и правильно решать, когда именно необходимо применить метод координации.
И в заключении, мы покажем метод принятия решений на основе IE для выбора способа решения задачи поставленной перед группой роботов, с неявной координацией в процессе решения. Эксперименты для этой части работы, проводились на виртуальных агентах в среде коммерческого симулятора высокой реалистичности VR-Forces.
Эта работа является шагом к сокращению разрыва между теоретическими исследованиями взаимодействий, и их использованием в координации мульти-агентных роботизированных систем.