Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Общие принципы

Целью Форума является проведение независимой оценки методов лингвистического анализа текста, ориентированных на работу с русскоязычными данными, совершенствование технологий и консолидация сообщества российских исследователей и разработчиков, занимающихся автоматическим анализом текста.

В рамках инициативы по проведению Форума предполагается ежегодное проведение соревнования, посвященного тому или иному направлению автоматической обработки текста. Структурно это мероприятие представляет собой набор дорожек (tracks) - дисциплин, в которых решаются конкретные задачи компьютерного анализа (с фиксированными наборами данных и правилами оценки). Результаты работы участвующих систем проходят независимую анонимную экспертизу и открыто обсуждаются в рамках круглого стола и в виде публикаций. По завершении текущего годового цикла, с учетом накопленного опыта и интересов участников определяются приоритетные направления Форума на следующий год.

Важнейшим принципом Форума является совместное с участниками определение задач для оценки и формирование правил проведения экспертизы (оценки) результатов. Оргкомитет лишь координирует проведение дорожек.

Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность данных при проведении экспертизы.

Форум имеет принципиально некоммерческую направленность. Стороны, участвующие в соревновании, берут на себя обязательство не использовать наборы данных и результаты тестирования в коммерческих и маркетинговых целях без согласия авторов.
 

Структура годового цикла

  • Подготовительный этап
    На этом этапе определяется список участников, уточняется список рассматриваемых задач и методология создания тестовых коллекций и оценки. Оговариваются форматы и способы обмена данными, официальные метрики для оценки. Фиксируется график проведения Форума.

    Для того чтобы участвовать в Форуме участник должен подать заявку к рассмотрению оргкомитетом, а также подписать необходимые соглашения (лицензии).

    Все участники получают псевдонимы, которые будут использоваться для анонимной оценки и публикации результатов. Информация о соответствии между псевдонимом и участником известна лишь самому участнику и ограниченному кругу организаторов.

  • Подготовка тестовых данных
    Чтобы обеспечить объективность оценки и уменьшить влияние фактора тренировки и адаптации участвующих систем на тех или иных коллекциях текстов, участники совместно формируют пул тестовых данных. Коллекции текстов могут также предоставляться третьими лицами и организациями, не участвующими в соревновании напрямую. Оргкомитет формирует тестовые наборы данных, заданий и распространяет их участникам. В зависимости от происхождения данных может требоваться оформление соглашения о нераспространении и ограничении возможностей использования набора участником.

  • Проведение экспериментальных прогонов своей системы
    Участник самостоятельно и на своем оборудовании выполняет задания дорожки. При предоставлении результатов (полученных ответов) оргкомитету участник должен использовать полученный псевдоним (например, псевдонимом может быть является имя/пароль для ftp-сервера) и соблюдать оговоренные сроки и формат представления результатов.

  • Экспертиза полученных результатов
    Оргкомитет организует проведение оценки полученных ответов (с привлечением независимых экспертов, а также, возможно, силами самих участников в виде перекрестной экспертизы результатов друг друга). Конкретная методология оценки зависит от рассматриваемой задачи и определяется на подготовительном этапе для каждой дорожки отдельно. Информация о всех оценках будет доступна всем участникам, но эта информация будет использовать псевдонимы для ссылок на участников.

    Участники имеют возможность оказывать помощь в проверке результатов. Конкретная процедура участия в процессе проверки оговаривается участниками совместно.

  • Анализ полученных результатов и их обсуждение
    Результаты работы программ, преимущества тех или иных подходов, методология организации дорожек и другие вопросы проведения Форума открыто обсуждаются в рамках круглого стола и в виде публикаций. Предполагается, что участники самостоятельно анализируют полученные результаты и представляют презентацию, в которой описывающую (общие) принципы их подхода и наблюдаемые результаты. При этом не обязательно раскрывать свое инкогнито и все детали реализации (это зависит от доброй воли участника) - достаточно в общих чертах описать какие известные методы использовались и что отличает их подход от других. Предоставление более подробной информации о системах, результатах и проблемах приветствуется.

    Независимые эксперты также имеют возможность участвовать в обсуждении результатов и подготовить обзорный доклад (публикацию) по теме Форума.

    В целях популяризации Форума и стимулирования исследований в области информационного поиска в России предполагается совмещение этого мероприятия с российской конференцией близкой тематики.

 

Принципы оценки

Конкретные процедуры оценки безусловно различаются для различных задач автоматической обработки текста и формируются для конкретных дорожек, но можно выделить ряд общих основополагающих соображений:
  • Равноправие систем
    Процедура оценки должна по возможности гарантировать равноправие систем при оценке результатов. Например, следует избегать любых решений, связанных с форматом выдачи, набором оцениваемых позиций (тегов) и т.п., о которых известно, что они могут дать преимущество одной системе перед другой.

  • Анонимность источника результата
    При проведении оценки должна соблюдаться анонимность источника результата - то есть, те, кто оценивают результат, не должны знать, какая система(ы) выдала этот результат. Это необходимо для соблюдения анонимности итоговых оценок систем, а также для повышения объективности оценки.

  • Выборочная оценка
    Невозможность сплошной ручной оценки полученных результатов обуславливается ограниченностью ресурсов, доступных для ее проведения (числа экспертов, временными или финансовыми ограничениями, и т.п.). Выборочная оценка также позволяет повысить масштаб решаемых системами задач при сохранении затрат на оценку на приемлемом уровне. Условия выборки позиций для оценки заранее обсуждаются участниками.

  • Использование апробированных подходов
    Предпочтительным является использование апробированных методологий оценки, поскольку это повышает уверенность в получении надежных результатов.

  • Независимость процедуры оценки от выдачи системы
    Если оцениваются отдельные элементы выдачи системы, то результат оценки не должен зависеть от местоположения элемента в исходной тестовой коллекции.

  • Возможность привлечения участников для оценки результатов.
    Привлечение участников позволяет повысить объем доступных экспертных оценок без увеличения затрат на экспертов. Однако, поскольку в отличие от экспертов участники являются лицами заинтересованными, то повышается риск получения недостоверных результатов. Процедура оценки должна предусматривать методы обнаружения и устранения таких проблем.

 

Выбор дорожек

То, из каких дорожек будет состоять следующий семинар определяется исходя из интереса участников и возможностей по организации дорожек. Более формально процедура выбора состоит из следующих шагов:
  • Формируется множество "возможных реализуемых" дорожек.
    "Возможная" дорожка - это любая дорожка, подходящая под тематику Форума. Множество возможных дорожек открыто и каждый заинтересованный участник может предлагать свои варианты на общее обсуждение.

    К обсуждению принимаются дорожки для которых описана не вся требуемая информация, но для того, чтобы дорожка получила статус "реализуемой", необходимо иметь полное описание, а также обоснование доступности необходимых ресурсов (данных, экспертного времени, т.п.)

  • По каждой дорожке производится открытое голосование.
    Целью голосования является определить заинтересованность каждого из участников в каждой из возможных дорожек (можно заявляться на участие в нескольких дорожках).

  • Выбираются наиболее популярные дорожки.
    Отбор основан на максимизации выгоды (интереса участников) при условии ограниченности доступных ресурсов (как временных, так и финансовых на проведение оценки).
Описание дорожки включает в себя ответы на следующие вопросы:
  • Для оценки методов решения какой задачи дорожка предназначена?
  • Какой набор данных предполагается использовать? (с указанием характеристик - объёма, легальности, разнородности, ...)
  • Какие будут задания? Сколько? Как они будут формироваться?
  • В каком виде предполагается получать ответы от систем?
  • Как будет организована процедура оценки результатов? Сколько ручного труда необходимо и каковы предполагаемые затраты на проведение оценки?
  • Какие меры могут быть использованы для оценки?
  • Что мотивирует "осмысленность" получаемых цифр и основанных на них выводов о превосходстве тех или иных методов? (Методологические аспекты) Например:
    • Стабильность результатов относительно количества заданий
    • Стабильность относительно процедуры оценки (порядка оценки или других факторов связанных с экспертами)
    • Защищённость от фальсификации результатов участниками