|
Общие принципы
Целью Форума является проведение независимой оценки методов лингвистического
анализа текста, ориентированных на работу с русскоязычными данными, совершенствование
технологий и консолидация сообщества российских исследователей и разработчиков,
занимающихся автоматическим анализом текста.
В рамках инициативы по проведению Форума предполагается ежегодное проведение соревнования,
посвященного тому или иному направлению автоматической обработки текста. Структурно это
мероприятие представляет собой набор дорожек (tracks) -
дисциплин, в которых решаются конкретные задачи компьютерного анализа (с фиксированными
наборами данных и правилами оценки). Результаты работы участвующих систем проходят независимую
анонимную экспертизу и открыто обсуждаются в рамках круглого стола и в виде публикаций.
По завершении текущего годового цикла, с учетом накопленного опыта и интересов участников
определяются приоритетные направления Форума на следующий год.
Важнейшим принципом Форума является совместное с участниками определение
задач для оценки и формирование правил проведения экспертизы (оценки) результатов.
Оргкомитет лишь координирует проведение дорожек.
Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность
данных при проведении экспертизы.
Форум имеет принципиально некоммерческую
направленность. Стороны, участвующие в соревновании, берут на себя
обязательство не использовать наборы данных и результаты тестирования в
коммерческих и маркетинговых целях без согласия авторов.
Структура годового цикла
-
Подготовительный этап
На этом этапе определяется список участников, уточняется список
рассматриваемых задач и методология создания тестовых коллекций и оценки.
Оговариваются форматы и способы обмена данными, официальные метрики для
оценки. Фиксируется график проведения Форума.
Для того чтобы участвовать в Форуме участник должен
подать заявку
к рассмотрению оргкомитетом, а также подписать необходимые соглашения (лицензии).
Все участники получают псевдонимы,
которые будут использоваться для анонимной оценки и публикации результатов.
Информация о соответствии между псевдонимом и участником известна
лишь самому участнику и ограниченному кругу организаторов.
-
Подготовка тестовых данных
Чтобы обеспечить объективность оценки и уменьшить влияние фактора
тренировки и адаптации участвующих систем на тех или иных коллекциях текстов,
участники совместно формируют пул тестовых данных. Коллекции текстов могут также
предоставляться третьими лицами и организациями, не участвующими в соревновании напрямую.
Оргкомитет формирует тестовые наборы данных, заданий и распространяет их участникам.
В зависимости от происхождения данных может требоваться
оформление соглашения о нераспространении и ограничении возможностей
использования набора участником.
-
Проведение экспериментальных прогонов своей системы
Участник самостоятельно и на своем оборудовании выполняет задания дорожки.
При предоставлении результатов (полученных ответов) оргкомитету
участник должен использовать полученный псевдоним (например, псевдонимом
может быть является имя/пароль для ftp-сервера) и соблюдать оговоренные
сроки и формат представления результатов.
-
Экспертиза полученных результатов
Оргкомитет организует проведение оценки полученных ответов (с привлечением
независимых экспертов, а также, возможно, силами самих участников в виде перекрестной
экспертизы результатов друг друга). Конкретная методология оценки зависит от
рассматриваемой задачи и определяется на подготовительном этапе для каждой дорожки отдельно.
Информация о всех оценках будет доступна всем участникам, но эта информация будет использовать
псевдонимы для ссылок на участников.
Участники имеют возможность оказывать помощь в проверке
результатов. Конкретная процедура участия в процессе проверки оговаривается
участниками совместно.
-
Анализ полученных результатов и их обсуждение
Результаты работы программ, преимущества тех или иных подходов, методология
организации дорожек и другие вопросы проведения Форума открыто обсуждаются в
рамках круглого стола и в виде публикаций. Предполагается, что участники
самостоятельно анализируют полученные результаты и представляют презентацию,
в которой описывающую (общие) принципы их подхода и
наблюдаемые результаты. При этом не обязательно раскрывать свое инкогнито и
все детали реализации (это зависит от доброй воли участника) - достаточно в
общих чертах описать какие известные методы использовались и что отличает их
подход от других. Предоставление более подробной информации о системах,
результатах и проблемах приветствуется.
Независимые эксперты также имеют возможность участвовать в
обсуждении результатов и подготовить обзорный доклад (публикацию) по теме Форума.
В целях популяризации Форума и стимулирования исследований в области
информационного поиска в России предполагается
совмещение этого мероприятия с российской конференцией близкой тематики.
Принципы оценки
Конкретные процедуры оценки безусловно различаются для различных задач
автоматической обработки текста и формируются для конкретных дорожек,
но можно выделить ряд общих основополагающих соображений:
-
Равноправие систем
Процедура оценки должна по возможности гарантировать
равноправие систем при оценке результатов. Например, следует избегать
любых решений, связанных с форматом выдачи, набором оцениваемых позиций
(тегов) и т.п., о которых известно, что они могут дать преимущество одной
системе перед другой.
-
Анонимность источника результата
При проведении оценки должна соблюдаться анонимность источника
результата - то есть, те, кто оценивают результат,
не должны знать, какая система(ы) выдала этот результат.
Это необходимо для соблюдения анонимности
итоговых оценок систем, а также для повышения объективности оценки.
-
Выборочная оценка
Невозможность сплошной ручной оценки полученных результатов обуславливается
ограниченностью ресурсов, доступных для ее проведения (числа экспертов,
временными или финансовыми ограничениями, и т.п.).
Выборочная оценка также позволяет повысить масштаб решаемых системами задач
при сохранении затрат на оценку на приемлемом уровне.
Условия выборки позиций для оценки заранее обсуждаются участниками.
-
Использование апробированных подходов
Предпочтительным является использование апробированных методологий оценки,
поскольку это повышает уверенность в получении надежных результатов.
-
Независимость процедуры оценки от выдачи системы
Если оцениваются отдельные элементы выдачи системы, то результат оценки
не должен зависеть от местоположения элемента в исходной тестовой коллекции.
-
Возможность привлечения участников для оценки результатов.
Привлечение участников позволяет повысить объем доступных экспертных
оценок без увеличения затрат на экспертов. Однако, поскольку в отличие от
экспертов участники являются лицами заинтересованными, то повышается риск
получения недостоверных результатов. Процедура оценки должна предусматривать
методы обнаружения и устранения таких проблем.
Выбор дорожек
То, из каких дорожек будет состоять следующий семинар определяется исходя
из интереса участников и возможностей по организации дорожек.
Более формально процедура выбора состоит из следующих шагов:
-
Формируется множество "возможных реализуемых" дорожек.
"Возможная" дорожка - это любая дорожка, подходящая под тематику Форума.
Множество возможных дорожек открыто и каждый заинтересованный участник может
предлагать свои варианты на общее обсуждение.
К обсуждению принимаются дорожки для которых описана не вся требуемая
информация, но для того, чтобы дорожка получила статус "реализуемой",
необходимо иметь полное описание, а также обоснование доступности
необходимых ресурсов (данных, экспертного времени, т.п.)
-
По каждой дорожке производится открытое голосование.
Целью голосования является определить заинтересованность каждого из
участников в каждой из возможных дорожек (можно заявляться на участие в
нескольких дорожках).
-
Выбираются наиболее популярные дорожки.
Отбор основан на максимизации выгоды (интереса участников) при условии
ограниченности доступных ресурсов (как временных, так и финансовых на
проведение оценки).
Описание дорожки включает в себя ответы на следующие вопросы:
- Для оценки методов решения какой задачи дорожка предназначена?
- Какой набор данных предполагается использовать? (с указанием
характеристик - объёма, легальности, разнородности, ...)
- Какие будут задания? Сколько? Как они будут формироваться?
- В каком виде предполагается получать ответы от систем?
- Как будет организована процедура оценки результатов? Сколько ручного
труда необходимо и каковы предполагаемые затраты на проведение оценки?
- Какие меры могут быть использованы для оценки?
- Что мотивирует "осмысленность" получаемых цифр и основанных на них
выводов о превосходстве тех или иных методов? (Методологические аспекты)
Например:
- Стабильность результатов относительно количества заданий
- Стабильность относительно процедуры оценки (порядка оценки или
других факторов связанных с экспертами)
- Защищённость от фальсификации результатов участниками
|