<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A2%D0%B5%D1%81%D1%82_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29</id>
	<title>Тест (проект) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A2%D0%B5%D1%81%D1%82_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A2%D0%B5%D1%81%D1%82_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;action=history"/>
	<updated>2026-06-06T14:46:20Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=%D0%A2%D0%B5%D1%81%D1%82_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=1803&amp;oldid=prev</id>
		<title>imported&gt;AntonioRodriges: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A2%D0%B5%D1%81%D1%82_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=1803&amp;oldid=prev"/>
		<updated>2018-10-20T07:32:13Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_командного_проекта&lt;br /&gt;
|name=Исследование производительности систем обработки больших векторных геоданных&lt;br /&gt;
|company=НИУ ВШЭ&lt;br /&gt;
|semester=Осень 2018&lt;br /&gt;
|course=3-4&lt;br /&gt;
|number_of_students=15&lt;br /&gt;
|categorize=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
Геопространственные данные (геоданные) это такие данные, у которых есть географическая привязка. &lt;br /&gt;
В современном мире, около 80% всех данных содержат географическую привязку: &lt;br /&gt;
[https://www.forbes.com/sites/truebridge/2016/05/06/how-imaging-technologies-are-changing-the-world-part-2/ ссылка 1],&lt;br /&gt;
[https://carto.com/blog/eighty-data-visualizations-examples-using-location-data-maps/ ссылка 2].&lt;br /&gt;
&lt;br /&gt;
Векторные геоданные - точка, линия, полигон, мультиполигон и другие виды объетов, которые имеют географическую привязку. &lt;br /&gt;
Эти данные встречаются в картах Google, Yandex, Bing и любых подобных сервисах. &lt;br /&gt;
При обработке этих данных мы встречаемся с такими основными проблемами:&lt;br /&gt;
* большие данные: этих данных очень много (представьте себе только одну Москву с миллионами объектов)&lt;br /&gt;
* особый workload: обработка запросов к геоданным не является тривиальной (нужны индексы, специальные алгоритмы и подходы)&lt;br /&gt;
* облачные системы: для обработки больших данных нужно использовать компьютерные кластеры и распределенные системы&lt;br /&gt;
&lt;br /&gt;
Системы обработки больших векторных геоданных могут отвечать на такие вопросы:&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Пользователь мобильной связи&amp;#039;&amp;#039;&amp;#039;: где находится ближайшая автозаправочная станция? Могу ли я по дороге домой купить корм для домашних животных?&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Командующий армией&amp;#039;&amp;#039;&amp;#039;: произошли ли значительные передвижения войск противника по сравнению со вчерашним вечером?&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Менеждер по страховым рискам&amp;#039;&amp;#039;&amp;#039;: какие постройки на берегу реки с наибольшей вероятностью пострадают от очередного большого наводнения?&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Специалист по транспорту&amp;#039;&amp;#039;&amp;#039;: как следует расширить сеть автодорог, чтобы до минимума сократить заторы?&lt;br /&gt;
* и многие другие вопросы: Spatial Databases: A Tour http://www.spatial.cs.umn.edu/Book/&lt;br /&gt;
&lt;br /&gt;
Например, треки ураганов позволяют страховым компаниям [https://eigenrisk.com/news/real-time-event-response/ спрогнозировать ущерб]:&lt;br /&gt;
[[Файл:NCEP_CFSR_AND_IBTRACKS_HURRICANE_KATRINA_28August2005.png|центр|600px|link=http://www.wikience.org/|Треки ураганов позволяют страховым компаниям спрогнозировать ущерб]]&lt;br /&gt;
&lt;br /&gt;
Исследование производительности систем обработки больших векторных геоданных заключается в следующем:&lt;br /&gt;
* развернуть систему обработки данных в облаке либо на локальной машине&lt;br /&gt;
* импортировать данные в систему&lt;br /&gt;
* разработать запросы для системы с учетом ее особенностей (это поможет сделать ментор), чтобы выявить сильные и слабые стороны системы (с какими задачами система справляется лучше, а с какими хуже)&lt;br /&gt;
* выполнить исследование системы: запустить запросы на системе с разным количеством узлов кластера, разным объемов данных, модифицировать запросы, чтобы улучшить или ухудшить производительность системы, найти данные на которых система работает лучше/хуже и т.п.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Цель работы&amp;#039;&amp;#039;&amp;#039; -- познакомиться с геоданными, изучить системы и особенности работы с ними. Это позволит существенно улучшить Ваше резюме. Например, многие системы основаны на Apache Spark, который является одной из самых популярных и востребованных работодателями систем работы с Большими Данными.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039; Свежая статья об исследовании систем обработки больших векторных геоданных&amp;#039;&amp;#039;&amp;#039;: How Good Are Modern Spatial Analytics Systems? [http://www.vldb.org/pvldb/vol11/p1661-pandey.pdf PDF] &lt;br /&gt;
&lt;br /&gt;
Ментор этого проекта лично выступал на VLDB 2018 - одной из самых значимых в мире конференций по Большим Данным, Распределенным Системам, и Базам Данных: ChronosDB: Distributed, File Based, Geospatial Array DBMS [http://www.vldb.org/pvldb/vol11/p1247-zalipynis.pdf PDF]. Это единственный устный доклад от РФ за последние 10 лет. &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;При командной работе задачи распределяются так&amp;#039;&amp;#039;&amp;#039;: студент берет себе одну из систем. &lt;br /&gt;
&lt;br /&gt;
Системы:&lt;br /&gt;
* GeoMesa https://www.geomesa.org/&lt;br /&gt;
* GeoTrellis https://geotrellis.io/&lt;br /&gt;
* PostgreSQL/PostGIS https://postgis.net/&lt;br /&gt;
* GIS Tools for Hadoop http://esri.github.io/gis-tools-for-hadoop/&lt;br /&gt;
* Spatial Hadoop http://spatialhadoop.cs.umn.edu/&lt;br /&gt;
* Hadoop-GIS http://bmidb.cs.stonybrook.edu/hadoopgis/index&lt;br /&gt;
* GeoSpark https://github.com/DataSystemsLab/GeoSpark&lt;br /&gt;
* Magellan https://github.com/harsha2010/magellan&lt;br /&gt;
* Asterix-DB https://asterixdb.apache.org/&lt;br /&gt;
* MongoDB https://www.mongodb.com/&lt;br /&gt;
* Couchbase https://www.couchbase.com/&lt;br /&gt;
* ваши предложения (почти любая современная база данных поддерживает векторные геоданные)&lt;br /&gt;
&lt;br /&gt;
Перечень остальных подходов и систем (не исчерпывающий): The Era of Big Spatial Data [http://www.vldb.org/pvldb/vol10/p1992-eldawy.pdf PDF]&lt;br /&gt;
&lt;br /&gt;
=== Чему вы научитесь? ===&lt;br /&gt;
* работе с облачными сервисами Azure либо Amazon&lt;br /&gt;
* работе с системами обработки векторных геоданных&lt;br /&gt;
* основам новых языков программирования: некоторые (не все) системы используют Python/Scala/... для своего API, их знание не является обязательным для работы над проектом, они легко осваиваются по ходу работы&lt;br /&gt;
* принципам работы алгоритмов обработки векторных геоданных&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
* технический английский (для чтения статей)&lt;br /&gt;
* язык программирования - любой, новый осваивается по ходу работы в зависимости от системы либо облачного сервиса&lt;br /&gt;
* желание разбираться с геопространственными данными, системами и алгоритмами их обработки, облачными сервисами&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
Перечень технологий доступен на сайте курса [http://rgeo.wikience.org/index2017.html Разработка геоприложений]&lt;br /&gt;
&lt;br /&gt;
Перечень систем (не исчерпывающий): The Era of Big Spatial Data [http://www.vldb.org/pvldb/vol10/p1992-eldawy.pdf PDF]&lt;br /&gt;
&lt;br /&gt;
=== Темы вводных занятий ===&lt;br /&gt;
Мы возьмем некоторые темы из курса [http://rgeo.wikience.org/index2017.html Разработка геоприложений]&lt;br /&gt;
&lt;br /&gt;
* что такое геопространственные данные, какие они бывают и какие особенности работы с ними&lt;br /&gt;
* системы для обработки больших геопространственных данных&lt;br /&gt;
* виды запросов и их особенности для обработки векторных геоданных&lt;br /&gt;
&lt;br /&gt;
=== Направления развития ===&lt;br /&gt;
* исследование производительности новейших систем, напр. Rheem http://da.qcri.org/rheem/&lt;br /&gt;
* исследование производительности машинного обучения с использованием геоданных&lt;br /&gt;
* модификация систем для изменения поведения при ответе на запросы&lt;br /&gt;
* комбинация в запросах не только векторных, но и растровых геоданных, данных других баз данных&lt;br /&gt;
* использование данных из различных источников (города, треки, ...) для исследования системы&lt;br /&gt;
* публикация статьи в следующем году по результатам исследований: напр., Суперкомпьютерные дни в России http://www.russianscdays.org/, AIST https://aistconf.org&lt;br /&gt;
&lt;br /&gt;
=== Критерии оценки ===&lt;br /&gt;
4-5:&lt;br /&gt;
* подготовить тестовые геоданные&lt;br /&gt;
* реализовать импорт геоданных в выбранную систему&lt;br /&gt;
* составить 10 одноэтапных (выполняющих какую-то одну пространственную операцию) запросов к системе &lt;br /&gt;
* уметь с помощью API системы выполнять к ней запросы&lt;br /&gt;
* построить диаграммы, графики и другие необходимые отчетные материлы иллюстрации производительности системы&lt;br /&gt;
&lt;br /&gt;
6-7: &lt;br /&gt;
* все пункты &amp;#039;&amp;#039;&amp;#039;4-5&amp;#039;&amp;#039;&amp;#039;, кроме запросов&lt;br /&gt;
* уметь разворачивать систему на компьютерном кластере в облаке Azure/Amazon (если бесплатная версия системы это позволяет)&lt;br /&gt;
* составить 10 (можно больше) сложных запросов к системе (запрос должен проверять сразу несколько аспектов работы системы)&lt;br /&gt;
* уметь измерять время выполнения различных этапов работы системы (напр., подготовка данных, shuffling между узлами кластера, ...)&lt;br /&gt;
&lt;br /&gt;
8-10:&lt;br /&gt;
* все пункты &amp;#039;&amp;#039;&amp;#039;6-7&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
* уметь создавать компьютерный кластер в облаке c помощью API Azure/Amazon (если это будет необходимо)&lt;br /&gt;
* проверить работу системы на различных данных, их объемах и конфигурациях оборудования (кластера, если система распределенная)&lt;br /&gt;
* подготовить UDF (User Defined Functions) для выполнения системой пользовательских запросов&lt;br /&gt;
* научиться задавать расположение исходных данных на узлах кластера с помощью API системы&lt;br /&gt;
* самостоятельно предлагать запросы, которые позволят выявить слабые и сильные стороны системы (на 10 баллов)&lt;br /&gt;
&lt;br /&gt;
Дополнительные баллы можно также получить при выполнении пунктов из раздела &amp;quot;Направления развития&amp;quot;&lt;br /&gt;
&lt;br /&gt;
=== Ориентировочное расписание занятий ===&lt;br /&gt;
По договоренности. Ориентировочно ВТ 16.40-18.10 (по четной неделе)&lt;/div&gt;</summary>
		<author><name>imported&gt;AntonioRodriges</name></author>
	</entry>
</feed>