<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_2020</id>
	<title>Машинное обучение на больших данных 2020 - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_2020"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_2020&amp;action=history"/>
	<updated>2026-06-06T11:25:57Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_2020&amp;diff=1451&amp;oldid=prev</id>
		<title>imported&gt;A: /* Полезные ссылки */</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B0_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_2020&amp;diff=1451&amp;oldid=prev"/>
		<updated>2020-03-21T17:12:39Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;Полезные ссылки&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;== О курсе ==&lt;br /&gt;
&lt;br /&gt;
Курс читается для студентов 4-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 3 модуле. Проводится с 2017 года.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лектор:&amp;#039;&amp;#039;&amp;#039; [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]&lt;br /&gt;
&lt;br /&gt;
Лекции ПМИ проходят по четвергам, 10:30 - 11:50, ауд. R407.&lt;br /&gt;
&lt;br /&gt;
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.&lt;br /&gt;
&lt;br /&gt;
=== Полезные ссылки ===&lt;br /&gt;
&lt;br /&gt;
Таблица с оценками: https://docs.google.com/spreadsheets/d/1foAM3wlzzKkPZwdOeQLAT8TUQ7gg_aAGdXXY0XASeuU/edit?usp=sharing&lt;br /&gt;
&lt;br /&gt;
[https://github.com/ZEMUSHKA/lsml_hse_lectures Репозиторий с материалами на GitHub]&lt;br /&gt;
&lt;br /&gt;
Самостоятельные задачи здаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:&lt;br /&gt;
&lt;br /&gt;
* Семинар 1. MapReduce. - https://www.dropbox.com/request/DxQZg2jEwvTQxmUnmIdh (deadline: 04.02.2020 23:59)&lt;br /&gt;
* Семинар 2. Hadoop MapReduce. - https://www.dropbox.com/request/4zMflMWC7YogYvbXeOP4 (deadline: 11.02.2020 23:59)&lt;br /&gt;
* Семинар 3. Spark. - https://www.dropbox.com/request/cMf6OxepfwGxNnbR1hWM (deadline: 18.02.2020 23:59)&lt;br /&gt;
* Семинар 4. VW + Spark SQL. - https://www.dropbox.com/request/iLXrNjSL5nFnCW3Mh4Rc (deadline: 04.03.2020 23:59)&lt;br /&gt;
* Cеминар 5. Streaming algorithms. - https://www.dropbox.com/request/oG8mpP7Jcz7BKjtg58Qd (deadline: 03.03.2020 23:59)&lt;br /&gt;
* Семинар 6. KNN. - https://www.dropbox.com/request/Xkf4EH9dJUO7nIAcwvIk (нестрогий deadline: 162 - 10.03.2020 23:59, 161 - 11.03.2020 23:59, после дедлайна формула: #(sum) * (0.85)^#(days after deadline), строгий дедлайн 18.03.2020 00:00)&lt;br /&gt;
* Семинар 7. Azure ML. - https://www.dropbox.com/request/PR2xVnId9OQPMhgFlNDq (deadline: 17.03.2020 23:59)&lt;br /&gt;
* Cеминар 8. Distributed neural networks. - https://www.dropbox.com/request/qPTZuOB3t1ftxFf2i9E9 (deadline: 22.03.2020 23:59)&lt;br /&gt;
* Семинар 9. Mastering bash. - https://www.dropbox.com/request/mfLaSxjEJ9hBlgx2neBF (deadline: 22.03.2020 23:59)&lt;br /&gt;
&lt;br /&gt;
Канал в telegram для объявлений: https://t.me/joinchat/AAAAAFj8HdBYgd79RDeQpg&lt;br /&gt;
&lt;br /&gt;
Заметки с семинаров (там же указываются задачи для самостоятельного решения) - https://github.com/ADKosm/lsml-seminars-2020-public&lt;br /&gt;
&lt;br /&gt;
Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.&lt;br /&gt;
&lt;br /&gt;
== Семинары ==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Группа !! Преподаватель !! Время !! Аудитория&lt;br /&gt;
|-&lt;br /&gt;
| МОП 161 || Бардуков Анатолий Андреевич || Четверг 12:10-13:30 || M302&lt;br /&gt;
|-&lt;br /&gt;
| МОП 162 || Космачев Алексей Дмитриевич || Среда 10:30-11:50 || D208&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Ассистенты: Анвардинов Шариф Ринатович&lt;br /&gt;
&lt;br /&gt;
=== Консультации ===&lt;br /&gt;
&lt;br /&gt;
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.&lt;br /&gt;
&lt;br /&gt;
При необходимости, можно писать на почту или в Telegram:&lt;br /&gt;
&lt;br /&gt;
Анатолий - @sindb&lt;br /&gt;
&lt;br /&gt;
Алексей - @adkosm&lt;br /&gt;
&lt;br /&gt;
Шариф - @shedx&lt;br /&gt;
&lt;br /&gt;
=== Правила выставления оценок ===&lt;br /&gt;
&lt;br /&gt;
В курсе предусмотрено несколько форм контроля знания:&lt;br /&gt;
* Самостоятельные задания, выдаваемые на каждом семинаре. Дедлайн на сдачу заданий - 2 недели с момента проведения семинара. Не включая день семинара через две недели.&lt;br /&gt;
* Практическое домашнее задание (будет выдано ориентировочно на 3 семинаре).&lt;br /&gt;
* Письменный экзамен.&lt;br /&gt;
&lt;br /&gt;
Итоговая оценка вычисляется:&lt;br /&gt;
&lt;br /&gt;
O&amp;lt;sub&amp;gt;итоговая&amp;lt;/sub&amp;gt; = 0.5* O&amp;lt;sub&amp;gt;домашка&amp;lt;/sub&amp;gt; + 0.2 * O&amp;lt;sub&amp;gt;сам. раб.&amp;lt;/sub&amp;gt; + 0.3 * О&amp;lt;sub&amp;gt;экзамен&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.&lt;br /&gt;
&lt;br /&gt;
=== Правила сдачи заданий ===&lt;br /&gt;
&lt;br /&gt;
На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. &lt;br /&gt;
Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.&lt;br /&gt;
&lt;br /&gt;
Дедлайн на самостоятельные задачи, которые выдаются на семинаре - 2 недели со дня семинара.  Не включая день семинара через две недели.&lt;br /&gt;
&lt;br /&gt;
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.&lt;br /&gt;
&lt;br /&gt;
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.&lt;br /&gt;
&lt;br /&gt;
== Лекции ==&lt;br /&gt;
Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures&lt;br /&gt;
&lt;br /&gt;
== Домашка ==&lt;br /&gt;
Выдана: 21 февраля 2020 23:59&lt;br /&gt;
&lt;br /&gt;
Дедлайн: 14 марта 2020 23:59&lt;br /&gt;
&lt;br /&gt;
https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing&lt;br /&gt;
&lt;br /&gt;
== Экзамен ==&lt;br /&gt;
&lt;br /&gt;
Дата: 24.03.2020&lt;br /&gt;
&lt;br /&gt;
Место: онлайн,&lt;br /&gt;
&lt;br /&gt;
Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа&lt;br /&gt;
&lt;br /&gt;
Вопросы к экзамену: &lt;br /&gt;
&lt;br /&gt;
•  Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные&lt;br /&gt;
&lt;br /&gt;
•  MapReduce. AllReduce в Vowpal Wabbit&lt;br /&gt;
&lt;br /&gt;
•  Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков&lt;br /&gt;
&lt;br /&gt;
•  Варианты распараллеливания ALS&lt;br /&gt;
&lt;br /&gt;
•  Инвертированный индекс для подсчета попарных похожестей на MapReduce&lt;br /&gt;
&lt;br /&gt;
•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)&lt;br /&gt;
&lt;br /&gt;
•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning&lt;br /&gt;
&lt;br /&gt;
•  Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)&lt;br /&gt;
&lt;br /&gt;
•  MinHash и его связь с мерой Жаккара&lt;br /&gt;
&lt;br /&gt;
•  Как устроен Bloom Filter с оценкой ошибки&lt;br /&gt;
&lt;br /&gt;
•  Как работает Count-Min Sketch с выводом ошибки для точечной оценки&lt;br /&gt;
&lt;br /&gt;
•  LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s&lt;br /&gt;
&lt;br /&gt;
•  Parameter Server и пример использования для Delayed Block Proximal Gradient.&lt;br /&gt;
&lt;br /&gt;
•  Как можно параллелить нейронные сети&lt;br /&gt;
&lt;br /&gt;
В билеты 2 вопроса и 1 задача (на MapReduce)&lt;br /&gt;
&lt;br /&gt;
== Полезные материалы ==&lt;br /&gt;
===Книги===&lt;br /&gt;
# Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.&lt;br /&gt;
# Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.&lt;br /&gt;
# Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.&lt;br /&gt;
# Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O&amp;#039;Reilly Media, 2015.&lt;br /&gt;
&lt;br /&gt;
===Странички прошлых лет===&lt;br /&gt;
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных&lt;/div&gt;</summary>
		<author><name>imported&gt;A</name></author>
	</entry>
</feed>