<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A0%D0%B5%D0%B4%D0%B0%D0%BA%D1%82%D0%BE%D1%80_%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BE%D0%BA_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29</id>
	<title>Редактор параллельных разметок (проект) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A0%D0%B5%D0%B4%D0%B0%D0%BA%D1%82%D0%BE%D1%80_%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BE%D0%BA_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29"/>
	<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A0%D0%B5%D0%B4%D0%B0%D0%BA%D1%82%D0%BE%D1%80_%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BE%D0%BA_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;action=history"/>
	<updated>2026-06-06T20:36:56Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://wikicshse.ru/index.php?title=%D0%A0%D0%B5%D0%B4%D0%B0%D0%BA%D1%82%D0%BE%D1%80_%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BE%D0%BA_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=2433&amp;oldid=prev</id>
		<title>imported&gt;Ira dolgaleva: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://wikicshse.ru/index.php?title=%D0%A0%D0%B5%D0%B4%D0%B0%D0%BA%D1%82%D0%BE%D1%80_%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%82%D0%BE%D0%BA_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=2433&amp;oldid=prev"/>
		<updated>2015-10-20T07:50:27Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_проекта&lt;br /&gt;
|name=Редактор параллельных разметок&lt;br /&gt;
|mentor=Фролов Дмитрий&lt;br /&gt;
|mentor_login={{URLENCODE:Dmitry|WIKI}}&lt;br /&gt;
|semester=Весна 2015&lt;br /&gt;
|course=1&lt;br /&gt;
|summer=&lt;br /&gt;
|categorize=yes&lt;br /&gt;
|is_archived=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
====Мотивировка====&lt;br /&gt;
&lt;br /&gt;
Для разметки языковых данных в корпусах, базах данных и т.п. часто пользуются краудсорсингом, привлекая студентов, школьников, энтузиастов, низкооплачиваемых mechanical turks. Являясь непрофессионалами и не имея достаточного опыта, эти разметчики делают много ошибок, поэтому обычно одни и те же данные размечаются двумя-тремя-.. - пятью разметчиками. Нужен интерфейс для супервайзера-профессионала, который на основе этих параллельных разметок создаст правильную итоговую разметку. (Аналогично такую чистовую разметку делают на основе ответов нескольких автоматических разметчиков).&lt;br /&gt;
&lt;br /&gt;
====Что такое разметка?==== &lt;br /&gt;
&lt;br /&gt;
Токен (слово или другая единица языка) с приписанным ему набором тегов (&amp;quot;разбором&amp;quot;), ср. пример из древнерусского:&amp;lt;br /&amp;gt;&lt;br /&gt;
&amp;lt;ana lex=&amp;quot;проблискатисѧ&amp;quot; gr=&amp;quot;V,praes,sg,3p&amp;quot; source_el=&amp;quot;ἀπαστράπτεται&amp;quot;/&amp;gt;проблискаѥтсѧ&amp;lt;br /&amp;gt;&lt;br /&gt;
Пример параллельной разметки можно увидеть на картинке справа.&lt;br /&gt;
&lt;br /&gt;
[[Файл:IMAG1097.jpg|мини]]&lt;br /&gt;
&lt;br /&gt;
====Требования к разрабатываемой системе====&lt;br /&gt;
&lt;br /&gt;
Система должна предоставлять следующие функции (I):&lt;br /&gt;
&lt;br /&gt;
# создавать &amp;quot;новый проект&amp;quot; и загружать исходные файлы (от двух до N xml-файлов разметки)&lt;br /&gt;
# выравнивать данные из разных файлов по токенам (возможны мелкие расхождения)&lt;br /&gt;
# показывать расхождения&lt;br /&gt;
# давать возможность пользователю выбрать один вариант (&amp;quot;правильный вариант&amp;quot;)&lt;br /&gt;
# автоматически выбирать &amp;quot;правильный вариант&amp;quot;, если разметки для токена везде совпадают&lt;br /&gt;
# выделять или (как опция) автоматически выбирать наиболее вероятный разбор по принципу &amp;quot;большинство голосует&amp;quot; (если разметок 3 и больше)&lt;br /&gt;
# давать возможность вручную написать новый разбор, если другие не годятся (в поле для редактирования)&lt;br /&gt;
# сохранять итоговую разметку в xml-файл (токены, для которых ответ не выбран, остаются без разметки)&lt;br /&gt;
# сохранять информацию о текущем состоянии в файл &amp;quot;проекта&amp;quot;&lt;br /&gt;
# проверять валидность итогового xml-файла (с учетом п. 7)&lt;br /&gt;
# сообщать, сколько разборов осталось неразмеченными, и переходить к следующему неразмеченному&lt;br /&gt;
# давать возможность увидеть контекст (несколько токенов слева и справа от текущего), возможно - в виде всплывающего поля по клику (дизайн - на усмотрение разработчиков)&lt;br /&gt;
&lt;br /&gt;
Дополнительные требования (II):&lt;br /&gt;
&lt;br /&gt;
# отрисовывать блекло повторяющиеся разборы, чтобы они не отвлекали пользователя (совсем скрывать их нежелательно, чтобы пользователь видел, откуда пришел тот или иной разбор)&lt;br /&gt;
# показывать [http://en.wikipedia.org/wiki/Cohen%27s_kappa каппу] inter-annotator agreement &lt;br /&gt;
# ранжировать аннотаторов от &amp;quot;хороших&amp;quot; к &amp;quot;плохим&amp;quot; (по степени их согласования с большинством), сначала показывать &amp;quot;хороших&amp;quot;, потом &amp;quot;плохих&amp;quot;&lt;br /&gt;
# вручную менять порядок показа их разборов&lt;br /&gt;
# особым образом помечать сложные случаи, чтобы потом можно было к ним вернуться (+ переходить между ними), иметь возможность писать к ним комментарии&lt;br /&gt;
# возможность оставить два и более разбора в итоговой разметке (такая потребность реально бывает)&lt;br /&gt;
# убирать и добавлять токены в разметку (связано с тем, что границы между токенами требуется поменять вручную).&lt;br /&gt;
&lt;br /&gt;
=== Чему вы научитесь? ===&lt;br /&gt;
&lt;br /&gt;
# Основы проектирования и разработки клиент-серверных приложений&lt;br /&gt;
# Базовые знания Unix Shell&lt;br /&gt;
# Работа с нереляционными базами данных&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
&lt;br /&gt;
# Представление о технологиях создания веб-страниц&lt;br /&gt;
# Основы языка программирования Python&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
&lt;br /&gt;
# HTML/CSS, JavaScript, JQuery&lt;br /&gt;
# Python 2.7&lt;br /&gt;
# WebPy/Web2Py/Django&lt;br /&gt;
# Ubuntu Linux/OpenSUSE/FreeBSD, GNU Emacs или Vim - на выбор&lt;br /&gt;
# MongoDB&lt;br /&gt;
# git, github/bitbucket&lt;br /&gt;
# http-сервер Nginx/Apache (возможно - в связке с WSGI-сервером (Gunicorn))&lt;br /&gt;
&lt;br /&gt;
=== Темы вводных занятий ===&lt;br /&gt;
&lt;br /&gt;
# Архитектура клиент-серверных приложений и основные принципы разработки&lt;br /&gt;
# Нереляционные базы данных, преимущества, недостатки, особенности использования&lt;br /&gt;
&lt;br /&gt;
=== Направления развития ===&lt;br /&gt;
&lt;br /&gt;
# Различные варианты усовершенствование архитектуры серверной части, механизмов и алгоритмов клиент-серверного взаимодействия&lt;br /&gt;
&amp;lt;!--# Развертывание кластера серверов с распределением нагрузки (например, http-сервером)&lt;br /&gt;
# Развертывание кластера БД с шардами и репликацией --&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Критерии оценки ===&lt;br /&gt;
&lt;br /&gt;
# 4-5 - Система представляет собой клиент-серверное приложение, реализующее как минимум половину функции из списка требований (I)&lt;br /&gt;
# 6-7 - Система, реализующая все функции из списка требований (I).&lt;br /&gt;
# 8-10 - Система, реализующая функции все функции из списка требований (I), и, кроме того, реализованы 1-2 или более функций из списка Дополнительных требований (II). Для получения самого высокого балла (10) разработанная система должна иметь защиту от использования незарегистрированными пользователями, предоставлять возможность регистрации и входа в систему.&lt;/div&gt;</summary>
		<author><name>imported&gt;Ira dolgaleva</name></author>
	</entry>
</feed>