<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A0%D0%B5%D0%BF%D0%BE%D0%B7%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D0%B9_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3%D0%B0_%28%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29</id>
	<title>Репозиторий автоматизированного парсинга (командный проект) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A0%D0%B5%D0%BF%D0%BE%D0%B7%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D0%B9_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3%D0%B0_%28%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A0%D0%B5%D0%BF%D0%BE%D0%B7%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D0%B9_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3%D0%B0_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;action=history"/>
	<updated>2026-06-06T16:23:24Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=%D0%A0%D0%B5%D0%BF%D0%BE%D0%B7%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D0%B9_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3%D0%B0_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=2448&amp;oldid=prev</id>
		<title>imported&gt;Ilya Kuzminov: /* Контактная информация */</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A0%D0%B5%D0%BF%D0%BE%D0%B7%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D0%B9_%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3%D0%B0_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=2448&amp;oldid=prev"/>
		<updated>2017-10-16T20:03:44Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;Контактная информация&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_командного_проекта&lt;br /&gt;
|name=Репозиторий автоматизированного парсинга&lt;br /&gt;
|company=ИСИЭЗ НИУ ВШЭ&lt;br /&gt;
|semester=Осень 2017&lt;br /&gt;
|course=3&lt;br /&gt;
|number_of_students=3-5&lt;br /&gt;
|categorize=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
Это проект по созданию единого репозитория для автоматизированного парсинга сайтов одной тематики, с целью дальнейшего использования извлеченной информации в аналитике и прогнозах.&lt;br /&gt;
&lt;br /&gt;
С сайтов должны быть извлечены все максимально полезные метаданные о публикациях, статьях, грантах и т.п., например, время создания, авторство, категория, теги и т.п. параметры. Извлеченные данные должны будут автоматически загружены в унифицированном для всех их источников формате в облачное хранилище в виде таблиц баз данных (мы используем PostgreSQL).&lt;br /&gt;
Задача по извлечению изначально может показаться достаточно простой, но на практике это далеко не так. В случаях с некоторыми сайтами можно будет применить инструменты разработанного у нас фреймворка на базе Scrapy для извлечения данных. Однако, скорее всего, придется работать также с такими инструментами как Selenium.&lt;br /&gt;
&lt;br /&gt;
В итоге у команды, работающей над этим проектом, должен будет получится набор скриптов-парсеров, осуществляющих задачи, собственно, парсинга, а также загрузки данных в БД, запускаемых в рамках единого проекта (т.е. так, чтобы обработка группы сайтов могла быть запущена единой командой управления, без ручного вмешательства разработчиков).&lt;br /&gt;
&lt;br /&gt;
=== Чему научатся студенты? Что самое интересное в проекте? ===&lt;br /&gt;
Анализировать и приводить к стандартному виду большие объемы совершенно разрозненных данных.&lt;br /&gt;
Разрабатывать и дорабатывать платформенные механизмы (фреймворки) автоматизированного сбора данных с веб-сайтов.&lt;br /&gt;
Работать с базами данных, разрабатывать алгоритмы автоматизированного их пополнения, изменения и пр.&lt;br /&gt;
Работать с облачными сервисами БД (например, AWS).&lt;br /&gt;
Командной работе (не только с программистами, но и с аналитиками и пр. специалистами).&lt;br /&gt;
Гибкости ума и прочим навыкам парсинга (т. к. для извлечения некоторых данных приходится использовать весьма нетривиальные пути).&lt;br /&gt;
&lt;br /&gt;
=== Организация работы (Как студенты будут работать в команде?) ===&lt;br /&gt;
Работа над проектом будет состоять из следующих этапов:&lt;br /&gt;
* Самостоятельное ознакомление с базовыми возможностями основных инструментами и библиотек, используемых для разработки проекта;&lt;br /&gt;
* Ознакомление с разработанным у нас фреймворком; обсуждение возможности использования определенных инструментов на каждой группе сайтов в отдельности;&lt;br /&gt;
* Распределение обязанностей и начало разработки над проектом (тестовое)&lt;br /&gt;
* Консультирование по первому (пробному) этапу работы над проектом, обсуждение проблем (технических, командных и пр.), установка плана работ над проектом (milestones и пр.)&lt;br /&gt;
* Периодическая проверка на соответствие текущего состояния проработанности проекта обозначенному плану.&lt;br /&gt;
* Финальная проверка реализации проекта.&lt;br /&gt;
&lt;br /&gt;
=== Компоненеты (Из каких частей состоит проект?) ===&lt;br /&gt;
* Разработанный в ИСИЭЗ фреймворк для извлечения данных (база для создания репозитория);&lt;br /&gt;
* Разработанные самими студентами скрипты-парсеры на основании фреймворка (в случае возможности применения фреймворка для назначенных сайтов);&lt;br /&gt;
* Разработанные самими студентами скрипты-парсеры на основании других библиотек парсинга (в случае &amp;#039;&amp;#039;&amp;#039;не&amp;#039;&amp;#039;&amp;#039; возможности применения фреймворка для назначенных сайтов);&lt;br /&gt;
* Дополнения к фреймворку для обработки неформатных данных, упрощения процесса загрузки в БД и пр., написанные самими студентами, в случае необходимости создания таковых.&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
Python 3, Scrapy, Selenium, PostgreSQL, lxml, Pandas, собственный фреймворк организации на Python + Scrapy для парсинга сайтов&lt;br /&gt;
Amazon Web Services&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
Знание Python на уровне, достаточном для быстрого освоения новых библиотек (для парсинга и пр.).&lt;br /&gt;
Желательно знание Selenium, lxml, Scrapy или прочих библиотек.&lt;br /&gt;
Наличие как минимум минимальных компетенций в работе с базами данных (в идеале — опыт работы с PostgreSQL)&lt;br /&gt;
&lt;br /&gt;
=== Темы вводных занятий ===&lt;br /&gt;
* Особенности парсинга на Python (в случае, если будут студенты, которые никогда не занимались решением подобного рода задач).&lt;br /&gt;
* Особенности парсинга с помощью библиотеки Scrapy.&lt;br /&gt;
* Особенности нашего фреймворка.&lt;br /&gt;
&lt;br /&gt;
=== Критерии оценки ===&lt;br /&gt;
&amp;#039;&amp;#039;0-3&amp;#039;&amp;#039;: Написанные парсеры не работают или не извлекают большую часть доступных для извлечения данных, или данных извлекаются плохо и не в нужном формате, или распарсено по необъективным причинам менее 50% обозначенных сайтов, а также не организован доступ данных на общее хранилище (сбор данных производился на локальные устройства). Нет возможности проверить код, полностью отсутствуют комментарии и пояснения по проекту.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;4-5&amp;#039;&amp;#039;: Написанные парсеры работают, извлекая все или большую часть доступных данных с сайтов, данные загружаются в правильном формате. По необъективным причинам распарсены не все сайты (до 65%) и некоторая часть данных, доступная для извлечения, не была извлечена или была извлечена неправильно. А также сбор данных производился на локальные устройства или проект написан на плохо читабельном коде, без комментариев.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;6-7&amp;#039;&amp;#039;: Написанные парсеры работают, извлекая все или большую часть доступных данных с сайтов, данные загружаются в правильном формате на единое общедоступное облачное хранилище. Распарсены не все сайты или некоторая часть данных, доступная для извлечения, не была извлечена. В части кода проекта, опирающейся на одни и те же инструменты, присутствует консистентность. В коде присутствуют комментарии, достаточные для его понимания.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;8-10&amp;#039;&amp;#039;: Написанные парсеры работают, извлекая все доступные данные с сайтов, данные загружаются в правильном формате на единое общедоступное облачное хранилище. Распарсено как минимум 90% сайтов. В части кода проекта, опирающейся на одни и те же инструменты, присутствует консистентность. Код проекта полностью закомментирован (опуская комментирование встроенных функций, подключение библиотек и пр. очевидные вещи).&lt;br /&gt;
&lt;br /&gt;
=== Похожие проекты ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Контактная информация ===&lt;br /&gt;
&lt;br /&gt;
Ментор: [[Участник:Ilya Kuzminov|Кузьминов Илья Филиппович]]&lt;br /&gt;
&lt;br /&gt;
Email: &amp;#039;&amp;#039;ikuzminov@hse.ru&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Рабочий телефон: +7 (495) 772-9590 доб. 12022&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Технические\организационные и пр. вопросы: &amp;#039;&amp;#039;Юлия Исаева&amp;#039;&amp;#039; &amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Email: &amp;#039;&amp;#039;yisaeva@hse.ru&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Тел.: +7 (495) 772 9590 доб. 22543&lt;/div&gt;</summary>
		<author><name>imported&gt;Ilya Kuzminov</name></author>
	</entry>
</feed>