<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A1%D0%B5%D1%80%D0%B2%D0%B8%D1%81_%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B0%D0%BD%D0%BD%D0%BE%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BD%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%E2%80%9CLarge_Data_Inventory%E2%80%9D</id>
	<title>Сервис хранения аннотированных разноформатных данных “Large Data Inventory” - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A1%D0%B5%D1%80%D0%B2%D0%B8%D1%81_%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B0%D0%BD%D0%BD%D0%BE%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BD%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%E2%80%9CLarge_Data_Inventory%E2%80%9D"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A1%D0%B5%D1%80%D0%B2%D0%B8%D1%81_%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B0%D0%BD%D0%BD%D0%BE%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BD%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%E2%80%9CLarge_Data_Inventory%E2%80%9D&amp;action=history"/>
	<updated>2026-06-06T17:15:20Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=%D0%A1%D0%B5%D1%80%D0%B2%D0%B8%D1%81_%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B0%D0%BD%D0%BD%D0%BE%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BD%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%E2%80%9CLarge_Data_Inventory%E2%80%9D&amp;diff=1793&amp;oldid=prev</id>
		<title>imported&gt;Mednik: Откат правок Seosky (обсуждение) к версии Aapoludnitsin</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A1%D0%B5%D1%80%D0%B2%D0%B8%D1%81_%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B0%D0%BD%D0%BD%D0%BE%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BD%D0%BE%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%E2%80%9CLarge_Data_Inventory%E2%80%9D&amp;diff=1793&amp;oldid=prev"/>
		<updated>2022-08-26T06:36:12Z</updated>

		<summary type="html">&lt;p&gt;Откат правок &lt;a href=&quot;/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/Seosky&quot; title=&quot;Служебная:Вклад/Seosky&quot;&gt;Seosky&lt;/a&gt; (&lt;a href=&quot;/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D1%83%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%D0%B0:Seosky&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;Обсуждение участника:Seosky (страница не существует)&quot;&gt;обсуждение&lt;/a&gt;) к версии &lt;a href=&quot;/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Aapoludnitsin&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;Участник:Aapoludnitsin (страница не существует)&quot;&gt;Aapoludnitsin&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_проекта&lt;br /&gt;
|name=Сервис хранения аннотированных разноформатных данных “Large Data Inventory”&lt;br /&gt;
|mentor=Космачев Алексей&lt;br /&gt;
|mentor_login={{URLENCODE:akosmachev|WIKI}}&lt;br /&gt;
|semester=Осень 2018&lt;br /&gt;
|course=3-4&lt;br /&gt;
|number_of_students=2-3&lt;br /&gt;
|categorize=yes&lt;br /&gt;
}}&lt;br /&gt;
===Что за проект?===&lt;br /&gt;
Биоинформатические алгоритмы анализа данных пациента генерируют огромное количество различных файлов (порядка 50-100 Гб на каждого пациента). Для хранения таких объемов информации используются различные облачные хранилища, такие как  Rackspace Cloud Files, Amazon S3 и тд. &lt;br /&gt;
Основная проблема - это понять принадлежность того или иного объекта в хранилищах: к какому пациенту относится, к какому dataset, когда и кто данный объект загрузил, какой биоинформатический инструмент сгенерировал файл (название, версия и прочие метаданные), какие данные (мутации, экспрессии и т.п.) и какой формат данных, как долго нужно хранить данный объект и так далее.&lt;br /&gt;
Важно отметить, что в хранилище помещаются данные пациентов из госпиталей, которая является PHI-информацией. Это означает, что необходим гибкий и надежный механизм разграничения прав доступа к распределенному хранилищу.&lt;br /&gt;
Помимо этого, необходимо обеспечивать консистентность данных, хранимых в системе - не должно быть фантомных объектов, которых на самом деле не существует, не должно оставаться файлов в реальном хранилище после удаления и тд. &lt;br /&gt;
Каждый объект, помещаемый в LDI (Large Data Inventory), снабжается минимально необходимым набором атрибутов и мета-данных. Атрибуты могут быть заданы как пользователем, так и встроенными в систему. Атрибуты и значения будут использоваться при выборке и отображении хранимым в системе объектов. Метаданные - некоторый системный набор атрибутов, например, кто загрузил объект, когда, какой размер объекта, mime-тип данных и т.п.&lt;br /&gt;
Необходимо разработать прототип компоненты, которая на основе облачного хранилища общего назначения предоставит RESTful API для интеграции в платформу, CLI для доступа пользователя к хранилищу. &lt;br /&gt;
===Начальные требования===&lt;br /&gt;
* Умение работать с англоязычной технической литературой&lt;br /&gt;
* Базовое знание Python&lt;br /&gt;
* Готовность изучать новые технологии&lt;br /&gt;
===Чему вы научитесь===&lt;br /&gt;
* Обеспечивать гибкий авторизованный доступ к данным в распределенной системе&lt;br /&gt;
* Реализовывать свой язык запросов и производить эффективный поиск по нему&lt;br /&gt;
* Реализовывать клиентское приложение для работы с системой&lt;br /&gt;
* Разворачивать самостоятельно и работать с существующими облачными решениями для хранения больших данных&lt;br /&gt;
===Какие будут использоваться технологии===&lt;br /&gt;
* Python, Golang&lt;br /&gt;
* Amazon S3 (Minio)&lt;br /&gt;
* MongoDB&lt;br /&gt;
* Yacc\Lex&lt;br /&gt;
===Критерии оценивания===&lt;br /&gt;
* 4 - Реализован сервис, предоставляющий RESTApi с возможностью добавления записи о файле и его поиска&lt;br /&gt;
* +2 - Реализован domain-specific language запросов&lt;br /&gt;
* +3 - Реализован CLI c возможностью загружать реальные данные&lt;br /&gt;
* +3 - Реализована авторизация&lt;br /&gt;
===Контакты===&lt;br /&gt;
Космачев Алексей	adkosmachev@edu.hse.ru‎&lt;/div&gt;</summary>
		<author><name>imported&gt;Mednik</name></author>
	</entry>
</feed>