DL для звука (ИИ24, 6-7 модуль)
Материал из Wiki - Факультет компьютерных наук
Дополнительные действия
О курсе
Занятия проводятся в Zoom.
Контакты
Преподаватели: Карагодин Никита, Пётр Гринберг
| Ассистенты | ||||
|---|---|---|---|---|
| Карагодин Никита | Демиденко Никита | Хорошенина Лилия | Зуйкова Ольга |
Материалы курса
Ссылка на GitHub с материалами курса: GitHub Repository
Ссылка на YouTube плейлист: Playlist
| Занятие | Тема | Материалы Github | Запись YouTube | Запись VK |
|---|---|---|---|---|
| 1 | Цифровая обработка сигналов: физика звука, цифровые сигналы, 4 вида преобразований Фурье, теорема Котельникова, спектрограммы и мел-спектрограммы | Лекция Семинар | Лекция Семинар | |
| 2 | Цифровая обработка сигналов: формирование речи и артикуляция, модели речевого аппарата, кепстр и MFCC коэффициенты, основная частота f0, психоакустика и восприятие речи | Лекция | Лекция | |
| 3 | Распознавание речи: виды ASR моделей, основные метрики, CTC Loss, модели DeepSpeech2 и Conformer, Language Models для ASR | Лекция Семинар | Лекция и семинар | |
| 4 | Audio Language Models and Speech Understanding | Лекция | Лекция | |
| 5 | Voice Activity Detection: идея, основные подходы, метрики и модели Silero VAD, MarbleNet, Pyannote VAD. Speaker Diarization: идея, метрики и процесс обработки. Source Separation: идея и основные метрики, семейсто моделей Demucs, Band-Split RNN, Band-Split RoFormer | Лекция | Лекция | |
| 6 | Синтез речи I: задачи TTS, метрики качества, данные, виды синтеза речи. Предобработка текста в TTS, акустические модели | Лекция | Лекция | |
| 7 | Синтез речи II: Вокодеры и End-to-End модели | Лекция [Семинар] | Лекция Семинар | |
| 8 | Синтез речи III: Аудиокодеки | Лекция | Лекция | |
| 9 | Генерация музыки | [Лекция] | Лекция |
Формула оценивания
Оценка = 𝟎.3×МДЗ1 + 𝟎.35×БДЗ1 + 𝟎.35×БДЗ2 + 𝟎.3×МДЗ2b>,
где МДЗ и БДЗ - большие и малые домашние задания.