Обучение с подкреплением (ИИ24, 7 модуль)

О курсе

Занятия проводятся в Zoom по субботам с 13:00 МСК

Контакты

Чат курса в TG: link

Преподаватели: Сергей Лактионов, Вячеслав Бучков

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Ссылка на плейлист курса в VKVideo: [VKVideo-playlist]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие	Тема	Дата	Дополнительные материалы
1 [YouTube] [VKVideo]	[Материалы] Intro to RL, Dynamic Programming	10/01/2026
2 [YouTube] [VKVideo]	[Материалы] Model-Free Tabular RL: Q-Learning, SARSA	17/01/2026
3 [YouTube] [VKVideo]	[Материалы] Intro to Deep RL: DQN, RAINBOW and beyond	24/01/2026	[DQN], [DRQN], [RAINBOW], [APE-X]
4 [YouTube] [VKVideo]	[Материалы] Policy-Based Methods: Policy Gradient, REINFORCE, A2C	31/01/2026	[Policy Gradient], [Actor-Critic], [REINFORCE in 2024]
5 [YouTube] [VKVideo]	[Материалы] Advanced Policy-Based: TRPO, PPO and beyond	07/02/2026	[TRPO], [PPO], [TRPO vs PPO] [37 implementation details of PPO] [Wasserstein distance вместо KL] [Sinkhorn distance вместо KL] [Improvement Lower Bound в TRPO] [TV Distance] [Sigmoid Soft-Clipping] [Soft-Clipping in LLM]
6 [YouTube] [VKVideo]	[Материалы] Continuous Control: DDPG, SAC and beyond	14/02/2026	[DDPG], [TD3], [SAC], [TQC] [MuJoCo]
7 [Youtube] [VKVideo]	[Материалы] Offline RL	21/02/2026	[Offline RL Tutorial, [A Survey on Offline RL] [IQL], [CQL], [ReBRAC] [Decision Transformers], [Trajectory Transformers] [CORL Library]
8 [Youtube] [VKVideo]	[Материалы] Multi-Armed Bandits	28/02/2026	[Neural UCB] [Neural Thompson Sampling]
9 [Youtube] [VKVideo]	[Материалы] Model-based RL: AlphaZero and friends	07/03/2026	[AlphaZero], [MuZero], [EfficientZero] [World Models], [Dreamer-V1]
10 [Youtube] [VKVideo]	[Материалы] RL in a context of LLMs	14/03/2026
11 [Youtube] [VKVideo]	[Материалы] Practical RL	21/03/2026

Формула оценивания

Оценка = МИН(10, 10*(0.65*HW + 0.10*TA + 0.25*RC)), где

HW - сумма баллов за (как минимум) 5 ДЗ;
RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии;
TA - сумма баллов за еженедельные квизы (суммарно 10 квизов).

Для каждого домашнего задания есть мягкий дедлайн, сдача после которого в течение недели до жёсткого дедлайна оценивается со штрафом 5% от оценки за ДЗ за каждый день просрочки.

Домашние задания

HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 23/01/26 23:59, Жёсткий - 30/01/26 23:59 | [Ноутбук]
HW-2 "SARSA(\lambda) and EV-SARSA(\lambda)" (3 балла) | Мягкий дедлайн - ~~31/01/26 23:59~~ 04.02.2026 23:59, Жёсткий - ~~07/02/26 23:59~~ 11.02.2026 23:59 | [Ноутбук]
HW-3 "DQN Implementation" (6 баллов) | Мягкий дедлайн - 20/02/26 23:59, Жёсткий - ~~27/02/26 23:59~~ 01.03.2026 23:59 | [Ноутбук]
HW-4 "PPO Implementation" (5 баллов) | Мягкий дедлайн - 08/03/26 23:59, Жёсткий - 15/03/26 23:59 | [Ноутбук]
HW-5 "SAC Implementation" (5 баллов) | Мягкий дедлайн - 15/03/26 23:59, Жёсткий - 22/03/26 23:59 | [Ноутбук]

Дедлайн по согласованию статьи - 15/03/26 23:59

Дедлайн по сдаче статьи - ~~21/03/26 23:59~~ ~~24/03/26 23:59~~ 25/03/26 8:59

О курсе

Контакты

Материалы курса

Формула оценивания

Домашние задания

Литература