Открыть меню
683
286
3
15 тыс.
Wiki - Факультет компьютерных наук
Переключить меню настроек
Открыть персональное меню
Вы не представились системе
Ваш IP-адрес будет виден всем, если вы внесёте какие-либо изменения.

DL для звука (ИИ24, 6-7 модуль)

Материал из Wiki - Факультет компьютерных наук

О курсе

Занятия проводятся в Zoom.

Контакты

Преподаватели: Карагодин Никита, Пётр Гринберг

Ассистенты
Карагодин Никита Демиденко Никита Хорошенина Лилия Зуйкова Ольга

Материалы курса

Ссылка на GitHub с материалами курса: GitHub Repository

Ссылка на YouTube плейлист: Playlist

Занятие Тема Материалы Github Запись YouTube Запись VK
1 Цифровая обработка сигналов: физика звука, цифровые сигналы, 4 вида преобразований Фурье, теорема Котельникова, спектрограммы и мел-спектрограммы Лекция Семинар Лекция Семинар
2 Цифровая обработка сигналов: формирование речи и артикуляция, модели речевого аппарата, кепстр и MFCC коэффициенты, основная частота f0, психоакустика и восприятие речи Лекция Лекция
3 Распознавание речи: виды ASR моделей, основные метрики, CTC Loss, модели DeepSpeech2 и Conformer, Language Models для ASR Лекция Семинар Лекция и семинар
4 Audio Language Models and Speech Understanding Лекция Лекция
5 Voice Activity Detection: идея, основные подходы, метрики и модели Silero VAD, MarbleNet, Pyannote VAD. Speaker Diarization: идея, метрики и процесс обработки. Source Separation: идея и основные метрики, семейсто моделей Demucs, Band-Split RNN, Band-Split RoFormer Лекция Лекция
6 Синтез речи I: задачи TTS, метрики качества, данные, виды синтеза речи. Предобработка текста в TTS, акустические модели Лекция Лекция
7 Синтез речи II: Вокодеры и End-to-End модели Лекция [Семинар] Лекция Семинар
8 Синтез речи III: Аудиокодеки Лекция Лекция
9 Генерация музыки [Лекция] Лекция

Формула оценивания

Оценка = 𝟎.3×МДЗ1 + 𝟎.35×БДЗ1 + 𝟎.35×БДЗ2 + 𝟎.3×МДЗ2b>,

где МДЗ и БДЗ - большие и малые домашние задания.

Домашние задания

  1. МДЗ1
  2. БДЗ1
  3. БДЗ2
  4. МДЗ2

Литература