<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=DataSpider_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29</id>
	<title>DataSpider (проект) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=DataSpider_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=DataSpider_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;action=history"/>
	<updated>2026-06-06T19:27:29Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=DataSpider_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=166&amp;oldid=prev</id>
		<title>imported&gt;Ira dolgaleva: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=DataSpider_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=166&amp;oldid=prev"/>
		<updated>2015-10-20T07:36:50Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_проекта&lt;br /&gt;
|name=DataSpider&lt;br /&gt;
|mentor=Куликов Дмитрий&lt;br /&gt;
|mentor_login={{URLENCODE:Jubbon|WIKI}}&lt;br /&gt;
|semester=Весна 2015&lt;br /&gt;
|course=1&lt;br /&gt;
|summer=&lt;br /&gt;
|categorize=yes&lt;br /&gt;
|is_archived=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
Задачей проекта DataSpider является реализация консольной утилиты, предназначенной&lt;br /&gt;
для обхода тематических сайтов в сети Интернет и извлечения &amp;quot;полезных&amp;quot; данных. Результатом обхода будет являться текстовый файл в формате CSV или TSV, содержащий извлеченные данные. Подобная программа необходима для получения открытых данных в случае, когда на сайте отсутствует возможность использовать API.&lt;br /&gt;
На выбор будут предложены сайты по следующим тематикам:&lt;br /&gt;
* Прогноз погоды (gismeteo.ru, meteoinfo.ru, hmn.ru, meteoservice.ru, foreca.ru)&lt;br /&gt;
* Финансовые показатели и рейтинги банков (banki.ru, bankir.ru, 101bank.net, raexpert.ru, sravni.ru, banks-rating.ru, сайт ЦБ РФ)&lt;br /&gt;
* Финансовые показатели и рейтинги страховых компаний (raexpert.ru, insuru.ru, ic-ratings.ru, inguru.ru, sravni.ru)&lt;br /&gt;
* Финансовые показатели и рейтинги туристических фирм (firms.turizm.ru, turreestr.ru, tursvodka.ru,tour-info.ru)&lt;br /&gt;
* Продажа и аренда недвижимости (cian.ru, realty.dmir.ru, irr.ru, egsnk.ru, gdeetotdom.ru) &lt;br /&gt;
* Спортивные соревнования и спортивная аналитика (myscore.ru, news.sportbox.ru, sports.ru, championat.com)&lt;br /&gt;
* Экскурсионные предложения (автобусные экскурсии, речные круизы)&lt;br /&gt;
* Интернет-магазины (mvideo.ru, mediamarkt.ru, eldorado.ru, 003.ru, enter.ru)&lt;br /&gt;
&lt;br /&gt;
=== Чему вы научитесь? ===&lt;br /&gt;
* основным принципам межсетевого взаимодействия по протоколу HTTP&lt;br /&gt;
* извлекать различные данные из HTML-страниц с помощью языка запросов XPath и регулярных выражений&lt;br /&gt;
* разрабатывать алгоритмы для эффективного обхода множества страниц сайта&lt;br /&gt;
* корректно использовать аргументы командной строки, переменные окружения, стандартные потоки ввода и вывода при создании консольных утилит&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
* желательно наличие базовых навыков программирования на языке Python&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
* Язык программирования Python версии 2.7&lt;br /&gt;
* Python-пакеты Grab, ScraPy, pyspider, Selenium Web Driver и другие&lt;br /&gt;
* Язык запросов XPath&lt;br /&gt;
* IaaS платформа Amazon Web Services (в рамках программы бесплатного использования одного экземпляра виртуальной машины на 1 год)&lt;br /&gt;
&lt;br /&gt;
=== Темы вводных занятий ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Направления развития ===&lt;br /&gt;
Каждая подобная утилита может рассматриваться как источник данных для проведения статистических исследований и различного рода аналитики. Собранные данные могут использоваться методами машинного обучения для построения различных описательных или предсказательных моделей.&lt;br /&gt;
&lt;br /&gt;
=== Критерии оценки ===&lt;br /&gt;
Оценки &amp;#039;&amp;#039;&amp;#039;4-5&amp;#039;&amp;#039;&amp;#039;:&lt;br /&gt;
* утилита обходит только один сайт из выбранной тематики&lt;br /&gt;
* повторный запуск приводит к перезатиранию предыдущих результатов&lt;br /&gt;
&lt;br /&gt;
Оценки &amp;#039;&amp;#039;&amp;#039;6-7&amp;#039;&amp;#039;&amp;#039;:&lt;br /&gt;
* утилита позволяет обходить два или более тематических сайта&lt;br /&gt;
* повторный запуск приводит к накоплению данных в результирующих файлах&lt;br /&gt;
* утилита позволяет задавать различные опции командной строки&lt;br /&gt;
* разработаны и проходят модульные тесты для большей части кода&lt;br /&gt;
* реализовано корректное разграничение стандартных потоков ввода и вывода&lt;br /&gt;
&lt;br /&gt;
Оценки &amp;#039;&amp;#039;&amp;#039;8-10&amp;#039;&amp;#039;&amp;#039;:&lt;br /&gt;
* упаковка утилиты в Debian-пакет&lt;br /&gt;
* написана небольшая документация в формате Markdown&lt;br /&gt;
* настройка cron-задания для периодического запуска утилиты&lt;/div&gt;</summary>
		<author><name>imported&gt;Ira dolgaleva</name></author>
	</entry>
</feed>