imported>Aapoludnitsin: Migrated current public revision from wiki.cs.hse.ru

2018-10-17T08:12:08Z

Migrated current public revision from wiki.cs.hse.ru

Новая страница

{{Карточка_проекта
|name=Обучение с подкреплением для манипулятора
|mentor=Панов Александр
|mentor_login={{URLENCODE:Panov.ai|WIKI}}
|semester=Осень 2018
|course=2
|summer=on
|number_of_students=5
|categorize=yes
}}

=== Что это за проект? ===
Создавая и проектируя робототехнические системы, мы должны заложить в них некоторые знания, на основе которых они будет успешно решать задачи и адекватно себя вести во внешней среде. Сейчас такие знания в виде правил и готовых алгоритмов по большей части закладываются вручную. Однако, очевидно, что это во-первых, неэффективно, а во-вторых, порождает множество неточностей, потому что заранее все предусмотреть невозможно. Единственный выход из такой ситуации - разработать алгоритм обучения, который бы позволял в процессе деятельности пополнять информацию о доступных и успешных для данной задачи действиях, конструировать новые действия на основе базовых операций и т.д. В данном проекте предлагается поработать над одним из таких алгоритмов в задаче управления манипулятором робота.

=== Чему вы научитесь? ===
Вы научитесь работать и реализовывать современные алгоритмы обучения с подкреплением. Вы узнаете, в чем специфика работы с робототехническими системами. Вы научитесь применять методы машинного обучения в таких задачах, как планирование и управление. Познакомитесь с возможностью применения нейронных сетей в обучении с подкреплением.

=== Какие начальные требования? ===
Отличное знание Python и желание учиться новому.

=== Какие будут использоваться технологии? ===
Инструменты и библиотеки Python (OpenAI.Gym, Open.AI Universe и др.).

=== Темы вводных занятий ===
Базовое занятие по обучению с подкреплением и задаче управления манипулятором.

=== Направления развития ===
Основное развитие - имплементация разработанного алгоритма для модели робототехнической системы в системах ROS и Gazebo.

=== Критерии оценки ===
1. 4-5 - Реализация базовой среды (Env) в Open.AI и примитивного алгоритма управления через Q-tables.
2. 6-7 - Реализация различных версий алгоритмов TRPO и PPO, проведение и анализ экспериментов.
3. 8-10 - Либо применение реккуретной нейронной сети с памятью, либо реализация алгоритма для модели робота в ROS и Gazebo.

=== Ориентировочное расписание занятий ===
ПН 17:00-19:00 и СП 17:00-19:00

Обучение с подкреплением для манипулятора (проект) - История изменений

imported>Aapoludnitsin: Migrated current public revision from wiki.cs.hse.ru