Обучение с подкреплением (ИИ24, 7 модуль)
Дополнительные действия
О курсе
Занятия проводятся в Zoom по субботам с 13:00 МСК
Контакты
Чат курса в TG: link
Преподаватели: Сергей Лактионов, Вячеслав Бучков
Материалы курса
Ссылка на плейлист курса на YouTube: [YouTube-playlist]
Ссылка на плейлист курса в VKVideo: [VKVideo-playlist]
Ссылка на GitHub с материалами курса: [GitHub repository]
| Занятие | Тема | Дата | Дополнительные материалы |
|---|---|---|---|
| 1 [YouTube] [VKVideo] | [Материалы] Intro to RL, Dynamic Programming | 10/01/2026 | |
| 2 [YouTube] [VKVideo] | [Материалы] Model-Free Tabular RL: Q-Learning, SARSA | 17/01/2026 | |
| 3 [YouTube] [VKVideo] | [Материалы] Intro to Deep RL: DQN, RAINBOW and beyond | 24/01/2026 | [DQN], [DRQN], [RAINBOW], [APE-X] |
| 4 [YouTube] [VKVideo] | [Материалы] Policy-Based Methods: Policy Gradient, REINFORCE, A2C | 31/01/2026 | [Policy Gradient], [Actor-Critic], [REINFORCE in 2024] |
| 5 [YouTube] [VKVideo] | [Материалы] Advanced Policy-Based: TRPO, PPO and beyond | 07/02/2026 | [TRPO], [PPO], [TRPO vs PPO]
[37 implementation details of PPO] [Wasserstein distance вместо KL] |
| 6 [YouTube] [VKVideo] | [Материалы] Continuous Control: DDPG, SAC and beyond | 14/02/2026 | [DDPG], [TD3], [SAC], [TQC]
[MuJoCo] |
| 7 [Youtube] [VKVideo] | [Материалы] Offline RL | 21/02/2026 | [Offline RL Tutorial, [A Survey on Offline RL] |
| 8 [Youtube] [VKVideo] | [Материалы] Multi-Armed Bandits | 28/02/2026 | [Neural UCB] [Neural Thompson Sampling] |
| 9 [Youtube] [VKVideo] | [Материалы] Model-based RL: AlphaZero and friends | 07/03/2026 | [AlphaZero], [MuZero], [EfficientZero]
[World Models], [Dreamer-V1] |
| 10 [Youtube] [VKVideo] | [Материалы] RL in a context of LLMs | 14/03/2026 | |
| 11 [Youtube] [VKVideo] | [Материалы] Practical RL | 21/03/2026 |
Формула оценивания
Оценка = МИН(10, 10*(0.65*HW + 0.10*TA + 0.25*RC)), где
- HW - сумма баллов за (как минимум) 5 ДЗ;
- RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии;
- TA - сумма баллов за еженедельные квизы (суммарно 10 квизов).
Для каждого домашнего задания есть мягкий дедлайн, сдача после которого в течение недели до жёсткого дедлайна оценивается со штрафом 5% от оценки за ДЗ за каждый день просрочки.
Домашние задания
- HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 23/01/26 23:59, Жёсткий - 30/01/26 23:59 | [Ноутбук]
- HW-2 "SARSA(\lambda) and EV-SARSA(\lambda)" (3 балла) | Мягкий дедлайн -
31/01/26 23:5904.02.2026 23:59, Жёсткий -07/02/26 23:5911.02.2026 23:59 | [Ноутбук] - HW-3 "DQN Implementation" (6 баллов) | Мягкий дедлайн - 20/02/26 23:59, Жёсткий -
27/02/26 23:5901.03.2026 23:59 | [Ноутбук] - HW-4 "PPO Implementation" (5 баллов) | Мягкий дедлайн - 08/03/26 23:59, Жёсткий - 15/03/26 23:59 | [Ноутбук]
- HW-5 "SAC Implementation" (5 баллов) | Мягкий дедлайн - 15/03/26 23:59, Жёсткий - 22/03/26 23:59 | [Ноутбук]
Дедлайн по согласованию статьи - 15/03/26 23:59
Дедлайн по сдаче статьи - 21/03/26 23:59 24/03/26 23:59 25/03/26 8:59