<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BD%D0%B5%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85</id>
	<title>Анализ неструктурированных данных - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BD%D0%B5%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BD%D0%B5%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85&amp;action=history"/>
	<updated>2026-06-06T13:55:27Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BD%D0%B5%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85&amp;diff=818&amp;oldid=prev</id>
		<title>imported&gt;AnnaShishkova: /* Неделя 1 (4-10 сентября) */</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BD%D0%B5%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85&amp;diff=818&amp;oldid=prev"/>
		<updated>2018-01-19T11:48:38Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;Неделя 1 (4-10 сентября)&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;== О курсе ==&lt;br /&gt;
&lt;br /&gt;
Курс читается для студентов 3-го и 4-го курсов [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 1-2 модулях.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекторы:&amp;#039;&amp;#039;&amp;#039;  Петр Алексеевич Ромов, Екатерина Леонидовна Черняк &lt;br /&gt;
&lt;br /&gt;
Лекции проходят по вторникам, 15:10 – 16:30 , ауд. 509.&lt;br /&gt;
&lt;br /&gt;
=== Полезные ссылки ===&lt;br /&gt;
&lt;br /&gt;
[https://www.hse.ru/edu/courses/205512723 Карточка курса]&lt;br /&gt;
&lt;br /&gt;
Репозиторий с материалами на GitHub: https://github.com/HSE-NLP&lt;br /&gt;
&lt;br /&gt;
Сдача домашних заданий по электронной почте: [mailto:http://amilinguaHW@gmail.com amilinguaHW@gmail.com]&lt;br /&gt;
&lt;br /&gt;
telegram: https://t.me/nlp_hse&lt;br /&gt;
&lt;br /&gt;
=== Семинары ===&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Группа !! Преподаватель !! Расписание&lt;br /&gt;
|-&lt;br /&gt;
| АДИС || Дмитрий Фролов  ||  вторник, 18:10 – 19:30, ауд. 501&lt;br /&gt;
|-&lt;br /&gt;
| БПМИ141 МОП || Анна Шишкова  ||  четверг, 13:40 – 15:00, ауд. 501&lt;br /&gt;
|-&lt;br /&gt;
| БПМИ142 МОП || Мурат Апишев  ||  четверг, 10:30 – 11:50, ауд. 322&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
=== Дата выдачи/сдачи проектных заданий ===&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
# Проект 1, часть 1 до 23:59 10.10.2017 [https://www.dropbox.com/s/czzb0meu45l5tvj/NLP_project1.pdf?dl=0 (ссылка)]&lt;br /&gt;
# Проект 1, часть 2 до 23:59 26.11.2017 [https://www.dropbox.com/s/h8oqt082v6ac68f/NLP_project2.pdf?dl=0 (ссылка)]&lt;br /&gt;
# Проект 2, до 23:59 20.12.2017 [https://drive.google.com/open?id=1jLPAIUt5Eb_9ORFnD-XFAVHCyLj00jZQ (ссылка)]&lt;br /&gt;
&lt;br /&gt;
=== Как писать отчёт ===&lt;br /&gt;
&lt;br /&gt;
1) Содержание отчёта. Вне зависимости от того, пишете ли вы отчёт в latex, или в jupyter notebook или ещё где-то, нормальный отчёт должен включать в себя:&lt;br /&gt;
&lt;br /&gt;
— Краткую постановку задачи и формулировку задания&lt;br /&gt;
&lt;br /&gt;
— Описание минимума необходимой теории и/или описание используемых инструментов&lt;br /&gt;
&lt;br /&gt;
— Подробное пошаговый рассказ о проделанной работе&lt;br /&gt;
&lt;br /&gt;
— Аккуратно оформленные результаты&lt;br /&gt;
&lt;br /&gt;
— Внятные выводы&lt;br /&gt;
&lt;br /&gt;
Все эти пункты долны быть чётко отмечены заголовками, если они слишком велики, то можно использовать подзаголовки. Словом, читатель не должен тратить время на навигацию.&lt;br /&gt;
&lt;br /&gt;
2) Стилистика. Отчёт —- это несколько формальный текст. Он не пишется от первого лица. В нём не надо рассказывать про свою криворукость, про то, как красиво поют птички за окном и т.п. Не надо обращаться к читателю (особенно на &amp;quot;ты&amp;quot;, среди вас уже есть такие &amp;quot;отличившиеся&amp;quot;), ни в тексте, ни в комментах к коду (если это ноутбук). Комментарии к коду, кстати, лучше писать на английском.&lt;br /&gt;
&lt;br /&gt;
Текст не должен содержать миллиарда опечаток и должен удовлетворять хоть каким-то минимальным стилистическим требованиям. Русский язык богат синонимами, и этим нужно пользоваться. Вот такие вещи писать НЕ надо:&lt;br /&gt;
&lt;br /&gt;
&amp;quot;Самое важное улучшение было в улучшении Prior Model (путь улучшения тоже взят из Word Alignment Models&amp;quot;).&amp;quot;&lt;br /&gt;
&lt;br /&gt;
Слова в предложениях должны быть согласованными.&lt;br /&gt;
&lt;br /&gt;
3) Если в отчёте (презентации) фигурируют картинки из сети, они должны быть в тему. И к ним надо обязательно ставить маленькую подпись с указанием источника, или же прописать его явно в тексте.&lt;br /&gt;
&lt;br /&gt;
Подсказка (просто на всякий случай): задание делается гораздо качественнее и аккуратнее, если его не откладывать на последний вечер;)&lt;br /&gt;
&lt;br /&gt;
=== Система оценок ===&lt;br /&gt;
&lt;br /&gt;
Результирующая оценка рассчитывается по формуле:&lt;br /&gt;
&lt;br /&gt;
O&amp;lt;sub&amp;gt;итоговая&amp;lt;/sub&amp;gt; = 0.8 * O&amp;lt;sub&amp;gt;накопл&amp;lt;/sub&amp;gt; + 0.2 * О&amp;lt;sub&amp;gt;экз&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Накопленная оценка рассчитывается по формуле:&lt;br /&gt;
&lt;br /&gt;
O&amp;lt;sub&amp;gt;накопл&amp;lt;/sub&amp;gt; = 0.4 * O&amp;lt;sub&amp;gt;проект1&amp;lt;/sub&amp;gt; +  0.4 * O&amp;lt;sub&amp;gt;проект2&amp;lt;/sub&amp;gt; +  0.2 * О&amp;lt;sub&amp;gt;дз+cем&lt;br /&gt;
&lt;br /&gt;
[https://docs.google.com/spreadsheets/d/1T_1LqhQ4fWJGh3s-lA0MsNoMTYIXIH9iUY3bu-Vpcrg/edit?usp=sharing, (ведомость)]&lt;br /&gt;
&lt;br /&gt;
=== Программа === &lt;br /&gt;
&lt;br /&gt;
==== Неделя 1 (4-10 сентября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (Е. Черняк)&amp;#039;&amp;#039;&amp;#039;: Обзор курса: мастер-классы, кейсы, проекты. Введение в автоматическую обработку текстов. [https://www.dropbox.com/s/cisfnsahepuiac9/1_intro.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039;: Библиотека nltk&lt;br /&gt;
[https://www.dropbox.com/s/81ur98bn5wa9thq/sem1.pdf?dl=0 (слайды и дз)]&lt;br /&gt;
[https://www.dropbox.com/s/mk0t49gydm516lb/Sem%201.ipynb?dl=0 (код с семинара)]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 2 (11-17 сентября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (П. Ромов)&amp;#039;&amp;#039;&amp;#039;: Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode. [https://www.dropbox.com/s/xm5ob8mkm7lrf3p/HSE_NLP_Lection2.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039;: Библиотеки lxml, beautifulsoup, scrapy. Задание для группы 3-4 курс, вечер: [http://dmitryfrolov.com/pdf/task_1.pdf (ссылка)] (дедлайн на все 23.59 14.09, делается и присылается индивидуально!). [https://www.dropbox.com/s/0kyl4w7rhaih90f/sem2.pdf?dl=0 (слайды с семинара)]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 3 (18-24 сентября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (Е. Черняк)&amp;#039;&amp;#039;&amp;#039;: Морфологический анализ, основные задачи и подходы. Стеммер Портера, поиск по словарю, скрытые цепи Маркова. Современные задачи морфологического анализа. [https://www.dropbox.com/s/urdf9cpsnp6uvml/2_morph.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039;: SENNA, Томита-парсер, отношения между словами. Задание для группы 3-4 курс, вечер: [http://dmitryfrolov.com/pdf/task_3.pdf (ссылка)], слайды семинара 19.09  [http://dmitryfrolov.com/pdf/sem3_new.pdf (ссылка)]. Задание для БПМИ142 МОП [http://wiki.cs.hse.ru/images/7/7c/Task.png (ссылка)]. (дедлайн на все 23.59 21.09, делается и присылается индивидуально!).   [https://www.dropbox.com/s/hvojoqp7zb3p4sk/sem3__Copy_.pdf?dl=0 (слайды с семинара вместе с заданием)]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Неделя 4 (25 сентября – 1 октября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (приглашённый лектор Иван Смуров):&amp;#039;&amp;#039;&amp;#039; Синтаксический анализ (syntactic parsing) - одна из классических задач NLP, заключающейся в построении по последовательности текста соответствующего ей синтаксического разбора. Задача имеет продолжительную и богатую историю и решалась с помощью различных методов - от вероятностных контекстно-свободных грамматик до нейросетей с использованием sequence-to-sequence архитектур. На лекции будет рассказано о популярном в литературе подходе  - использованию transition-based парсеров. Этод подход, восходящий к shift-reduce анализаторам классических логик, был впервые использован в применении к задаче синтаксического анализа Й. Нивре в 2003 году. В 2014 году метод был адаптирован для использования нейросетей Д. Ченом и К. Маннингом из Стенфордского университета и, наконец, в 2016 он послужил основой для популярного парсера SynaxNet, разработанного в  Google. [https://www.dropbox.com/s/yceqgugsc6tdcxs/transition-based_%D0%BF%D0%B0%D1%80%D1%81%D0%B5%D1%80%D1%8B.pptx?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
О лекторе:&lt;br /&gt;
Иван Смуров – сотрудник кафедр Алгоритмов и Технологий Программирования и Компьютерной Лингвистики МФТИ, разрабатчик научно-исследовательского отдела компании ABBYY. Является специалистом  по машинному обучению, компьютерной и вычислительной лингвистике, математической логике. Область основных интересов – обработка текстов на естественных языках.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар:&amp;#039;&amp;#039;&amp;#039; SyntaxNet, cинтаксические парсеры, универсальные зависимости [https://yadi.sk/d/OddFv-y33NBshk (слайды)]&lt;br /&gt;
&lt;br /&gt;
[http://dmitryfrolov.com/pdf/task4.jpg (дз для 3 курса)]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 5 (2 октября – 8 октября)  ====&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (Е. Черняк):&amp;#039;&amp;#039;&amp;#039; Статистический анализ текстов. Законы Ципфа и Хипса. Методы извлечения ключевых слов и словосочетаний.  Векторная модель. [https://www.dropbox.com/s/fzqcvqb7qu4d27j/4_StatAnalysis.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар:&amp;#039;&amp;#039;&amp;#039; Ключевые слова, n-граммы, коллокации [https://www.dropbox.com/s/98grun1bl2pqy2p/sem5.pdf?dl=0 (слайды и дз)], [https://yadi.sk/i/BND6d9P73NZLCE (слайды для группы 142)]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Неделя 6 (9 октября – 15 октября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (приглашенный лектор Анна Потапенко):&amp;#039;&amp;#039;&amp;#039; Дистрибутивная семантика. В курсе вы уже поговорили о морфологии и синтаксисе, в этой лекции мы поднимемся на следующий уровень анализа языка и поговорим о семантике - о том, как из текстов извлекать смысл отдельных слов и целых предложений. Смысл будем кодировать векторами - обычными векторами вещественных чисел.  Мы начнем с классических моделей - подсчета PMI слов и применения SVD для понижения размерности матриц. Затем поговорим о том, как в эту картину укладывается нашумевший word2vec. Разберемся, почему это не deep learning, и почему король - мужчина + женщина != королева. Затем поговорим о других популярных и более новых подходах обучения векторных представлений слов: GloVe, FastText, StarSpace. Во второй части лекции перейдем к предложениям и поговорим о 3 типах нейронных сетей, позволяющих строить их векторные представления: это конволюционные, рекуррентные и рекурсивные нейронные сети. Здесь мы увидим, что модели синтаксиса и другие лингвистические знания хорошо помогают собрать из отдельных слов смысл всего предложения. [https://www.dropbox.com/s/f3hklz6yko4ohqs/Potapenko_lecture_distr.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
О лекторе: Анна занимается построением векторных представлений текста в аспирантуре у К.В. Воронцова. За время аспирантуры Анна дважды стажировалась в компании Google, где оба раза занималась исследованиями в области NLP - дистрибутивной семантикой и диалоговыми системами. Анна закончила ВМК МГУ и Школу Анализа Данных Яндекса, теперь она ведет там семинары, а также готовит онлайн-курс по NLP на платформе Coursera.&lt;br /&gt;
&lt;br /&gt;
==== Неделя 7 (16 октября – 22 октября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (М. Апишев):&amp;#039;&amp;#039;&amp;#039; Тематическое моделирование. Определения. PLSA, LDA, аддитивная регуляризация [https://www.dropbox.com/s/4mjxzjk6njvzzrl/MelLain_HSE_nlp_TM_lection%20%283%29.pdf?dl=0 (слайды)].&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция у журналистов данных (Е. Черняк):&amp;#039;&amp;#039;&amp;#039;  Классификация текстов, метод наивного Байеса, логистическая регрессия [https://www.dropbox.com/s/tcj33fdgvetdvg3/classification.slides.html?dl=0 (слайды)].&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар:&amp;#039;&amp;#039;&amp;#039; [https://yadi.sk/i/zct5pith3PYAmz Тематическое моделирование]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 8 (30 октября – 5 ноября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция у журналистов данных (Е. Черняк):&amp;#039;&amp;#039;&amp;#039;  Классификация текстов, метод наивного Байеса, логистическая регрессия, сверточные нейронные сети, Fast Text. [https://www.dropbox.com/s/kdcs4mvpb7o9cte/classification.slides%202.html?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар:&amp;#039;&amp;#039;&amp;#039;  Классификация и анализ тональности. [https://www.dropbox.com/s/sid2nto8gmjys2y/sem8.pdf?dl=0 (слайды и дз)]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 9 (6 ноября – 12 ноября)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (приглашенный лектор Алексей Шаграев):&amp;#039;&amp;#039;&amp;#039; Информационный поиск. &lt;br /&gt;
&lt;br /&gt;
В лекции будут обсуждаться различные прикладные задачи машинного обучения в информационном поиске, возникающие при разработке поисковых систем. Среди них:&lt;br /&gt;
- кластеризация новостных сообщений&lt;br /&gt;
- построение метрик качества для поисковых систем и оптимизация под них&lt;br /&gt;
- классическое ранжирование и обучение ранжированию по пользовательским данным&lt;br /&gt;
- разнообразие и свежесть в поисковой выдаче&lt;br /&gt;
&lt;br /&gt;
[https://www.dropbox.com/s/0btntom44qve5q5/ML%20-%20%D0%B4%D0%BB%D1%8F%20%D0%BA%D1%80%D1%83%D1%82%D1%8B%D1%85%20%D1%81%D1%82%D1%83%D0%B4%D0%B5%D0%BD%D1%82%D0%BE%D0%B2.pptx?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
О лекторе: Алексей Шаграев, к.т.н., руководитель службы разработки свеже-социального поиска Яндекса&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039; Информационный поиск [https://www.dropbox.com/s/h2u3f26jjpbgd9u/sem9___final.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 10 (13 ноября – 19 ноября)  ====&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (Е. Черняк)&amp;#039;&amp;#039;&amp;#039;  Языковые модели. Счетные модели и нейронные модели. Реккурентные нейронные сети. LSTM.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039; Автоматическая генерация текстов [https://www.dropbox.com/s/7p7l0azbj948cnk/sem10.pdf?dl=0 (слайды)] [https://yadi.sk/i/jTNrjF283PzYz8 (слайды группы 142)]&lt;br /&gt;
&lt;br /&gt;
==== Неделя 11 (20 ноября – 25 ноября)  ====&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (Е. Черняк)&amp;#039;&amp;#039;&amp;#039;  Извлечение информации: именованные сущности, отношения, факты и события. Использование методов классификации и методов классификации последовательностей. MEMM, CRF, BiLSTM-CRF.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039; [http://dmitryfrolov.com/pdf/sem11.pdf (слайды)]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Неделя 12 (27 ноября – 1 декабря)  ====&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (Е. Черняк)&amp;#039;&amp;#039;&amp;#039; Генерация текстов. Обучение с подкреплением (reinforcment learning) в задачах генерации текстов (обзор). [https://www.dropbox.com/s/god4t70rwe1zlwm/1_NLG.pdf?dl=0 (слайды)]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинар&amp;#039;&amp;#039;&amp;#039; Вопросно-ответные системы [http://dmitryfrolov.com/pdf/sem12.pdf (слайды)]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Неделя 13 (4 декабря – 10 декабря)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (приглашенный лектор Сергей Губанов):&amp;#039;&amp;#039;&amp;#039; Исправление опечаток&lt;br /&gt;
&lt;br /&gt;
Начиная с самых основ и заканчивая машинным обучением, будет рассказано о том, как устроен современный спеллчекер, способный обрабатывать поток поисковых запросов Яндекса.&lt;br /&gt;
&lt;br /&gt;
О лекторе: Сергей Губанов, руководитель группы ядра машинного перевода, работаю над исправлением опечаток и над нейросетевым машинным переводом.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Неделя 13 (11 декабря – 17 декабря)  ==== &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лекция (приглашенный лектор Василий Быль):&amp;#039;&amp;#039;&amp;#039; Обработка речи&lt;br /&gt;
&lt;br /&gt;
Лекция будет посвящена общему устройству систем распознавания речи и тому, какое место в них занимают языковые модели.&lt;br /&gt;
&lt;br /&gt;
О лекторе: Василий Быль руководит бригадой (небольшой группой) языковых моделей в отделе голосовых технологий Яндекса.&lt;br /&gt;
&lt;br /&gt;
=== Рекомендуемые ресурсы ===&lt;br /&gt;
&lt;br /&gt;
На английском&lt;br /&gt;
* Jurafsky &amp;amp; Martin [https://web.stanford.edu/~jurafsky/slp3/ (link) ] &lt;br /&gt;
* Курс Лауры Каллмайер по МО для АОТ [https://user.phil.hhu.de/~kallmeyer/MachineLearning/index.html (link)]&lt;br /&gt;
* Курс Нильса Раймерса по DL для АОТ [https://github.com/UKPLab/deeplearning4nlp-tutorial (link)]&lt;br /&gt;
* Курс в Оксфорде по DL для АОТ [https://github.com/oxford-cs-deepnlp-2017 (link)]&lt;br /&gt;
* Курс в Стенфорде по DL для AOT [http://cs224d.stanford.edu (link)]&lt;br /&gt;
* Материалы по обучению с подкреплением (Reinforcment Learning) [https://github.com/jiyfeng/rl4nlp (link)]&lt;br /&gt;
&lt;br /&gt;
На русском (и про русский, в основном)&lt;br /&gt;
* НКРЯ [http://ruscorpora.ru (link)]&lt;br /&gt;
* Открытый корпус [http://opencorpora.org (link)]&lt;br /&gt;
* Дистрибутивные семантические модели для русского языка [http://rusvectores.org/ru/ (link)]&lt;br /&gt;
* Морфология [https://tech.yandex.ru/mystem/ (link)]&lt;br /&gt;
* Синтаксис [https://habrahabr.ru/post/317564/ (link)]&lt;br /&gt;
* Томита-парсер [https://tech.yandex.ru/tomita/ (link)]&lt;br /&gt;
* Все на свете: [http://mathlingvo.ru (mathlingvo)], [https://nlpub.org (nlpub)]&lt;br /&gt;
* Text Visualisation browser: [http://textvis.lnu.se (link)]&lt;br /&gt;
&lt;br /&gt;
Ссылка на дополнительную литературу:&lt;br /&gt;
* [https://machinelearningmastery.com/books-on-natural-language-processing/] Books on natural language processing&lt;br /&gt;
* [http://eprints.lse.ac.uk/62548/1/Schonhardt-Bailey_text%20mining%20handbook.pdf/] Text mining for central banks&lt;br /&gt;
&lt;br /&gt;
Литература&lt;br /&gt;
# Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.&lt;br /&gt;
# Martin, James H., and Daniel Jurafsky. &amp;quot;Speech and language processing.&amp;quot; International Edition 710 (2000): 25.&lt;br /&gt;
# Cohen, Shay. &amp;quot;Bayesian analysis in natural language processing.&amp;quot; Synthesis Lectures on Human Language Technologies 9, no. 2 (2016): 1-274.&lt;br /&gt;
# Goldberg, Yoav. &amp;quot;Neural Network Methods for Natural Language Processing.&amp;quot; Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.&lt;br /&gt;
&lt;br /&gt;
=== Используемые библиотеки ===&lt;br /&gt;
# NLTK [http://www.nltk.org (link)]&lt;br /&gt;
# pymorphy2 [https://pymorphy2.readthedocs.io/en/latest/ (link)]&lt;br /&gt;
# pymystem3 [https://github.com/Digsolab/pymystem3 (link)]&lt;br /&gt;
# readability  [https://github.com/buriy/python-readability (link)]&lt;/div&gt;</summary>
		<author><name>imported&gt;AnnaShishkova</name></author>
	</entry>
</feed>