ru-eval Оценка методов автоматического анализа текстов

Главная

Новости

Запущена новая версия сайта ru-eval.ru.

Корпус с разметкой анафорических и кореферентных связей доступен для скачивания.

О проекте

Форум RU-EVAL посвящен независимой оценке методов и алгоритмов лингвистического анализа разного уровня, ориентированных на работу с русскоязычной информацией. Высокая цель Форума - улучшение состояния науки в области автоматической обработки текстов. Инициатива направлена на создание среды, в которой научные, научно-производственные, коммерческие и т.п. разработки могли бы проходить независимую экспертизу, на обмен мнениями между разработчиками программного обеспечения, лингвистами и всеми интересующимися проблемами компьютерного анализа, на обсуждение насущных проблем и путей развития технологий, а также самих подходов к оценке алгоритмов лингвистического анализа.

Проект носит некоммерческий характер и осуществляется силами сообщества исследователей и разработчиков, занимающихся автоматической обработкой текста. Результаты тестирования предназначены для использования только в исследовательских целях и не могут быть использованы в маркетинговых или коммерческих целях.

Правила и методы оценки являются открытыми и формируются с учетом мнения участников. Тестовые коллекции, наборы заданий и материалы, размеченные экспертами, являются общедоступными результатами работы Форума.

Общие принципы

Целью Форума является проведение независимой оценки методов лингвистического анализа текста, ориентированных на работу с русскоязычными данными, совершенствование технологий и консолидация сообщества российских исследователей и разработчиков, занимающихся автоматическим анализом текста.

В рамках инициативы по проведению Форума предполагается регулярное проведение соревнований, посвященных тому или иному направлению автоматической обработки текста. Структурно это мероприятие представляет собой набор дорожек (tracks) - дисциплин, в которых решаются конкретные задачи компьютерного анализа (с фиксированными наборами данных и правилами оценки). Результаты работы участвующих систем проходят независимую анонимную экспертизу и открыто обсуждаются в рамках круглого стола и в виде публикаций. По завершении текущего годового цикла, с учетом накопленного опыта и интересов участников определяются приоритетные направления Форума на следующий год.

Важнейшим принципом Форума является совместное с участниками определение задач для оценки и формирование правил проведения экспертизы (оценки) результатов. Оргкомитет лишь координирует проведение дорожек.

Организаторы обеспечивают независимость оценки - гласность процедуры и анонимность данных при проведении экспертизы.

Форум имеет принципиально некоммерческую направленность. Стороны, участвующие в соревновании, берут на себя обязательство не использовать наборы данных и результаты тестирования в коммерческих и маркетинговых целях без согласия авторов.

Структура годового цикла

  • Подготовительный этап
    На этом этапе определяется список участников, уточняется список рассматриваемых задач и методология создания тестовых коллекций и оценки. Оговариваются форматы и способы обмена данными, официальные метрики для оценки. Фиксируется график проведения Форума.
    Для того чтобы участвовать в Форуме участник должен подать заявку в оргкомитет, а также подписать необходимые соглашения (лицензии).
    Все участники получают псевдонимы, которые будут использоваться для анонимной оценки и публикации результатов. Информация о соответствии между псевдонимом и участником известна лишь самому участнику и ограниченному кругу организаторов.

  • Подготовка тестовых данных
    Чтобы обеспечить объективность оценки и уменьшить влияние фактора тренировки и адаптации участвующих систем на тех или иных коллекциях текстов, участники совместно формируют пул тестовых данных. Коллекции текстов могут также предоставляться третьими лицами и организациями, не участвующими в соревновании напрямую. Оргкомитет формирует тестовые наборы данных, заданий и распространяет их участникам. В зависимости от происхождения данных может требоваться оформление соглашения о нераспространении и ограничении возможностей использования набора участником.

  • Проведение экспериментальных прогонов своей системы
    Участник самостоятельно и на своем оборудовании выполняет задания дорожки. При предоставлении результатов (полученных ответов) оргкомитету участник должен использовать полученный псевдоним (например, псевдонимом может быть является имя/пароль для ftp-сервера) и соблюдать оговоренные сроки и формат представления результатов.

  • Экспертиза полученных результатов
    Оргкомитет организует проведение оценки полученных ответов (с привлечением независимых экспертов, а также, возможно, силами самих участников в виде перекрестной экспертизы результатов друг друга). Конкретная методология оценки зависит от рассматриваемой задачи и определяется на подготовительном этапе для каждой дорожки отдельно. Информация о всех оценках будет доступна всем участникам, но эта информация будет использовать псевдонимы для ссылок на участников.
    Участники имеют возможность оказывать помощь в проверке результатов. Конкретная процедура участия в процессе проверки оговаривается участниками совместно.

  • Анализ полученных результатов и их обсуждение
    Результаты работы программ, преимущества тех или иных подходов, методология организации дорожек и другие вопросы проведения Форума открыто обсуждаются в рамках круглого стола и в виде публикаций. Предполагается, что участники самостоятельно анализируют полученные результаты и представляют презентацию, в которой описывающую (общие) принципы их подхода и наблюдаемые результаты. При этом не обязательно раскрывать свое инкогнито и все детали реализации (это зависит от доброй воли участника) - достаточно в общих чертах описать какие известные методы использовались и что отличает их подход от других. Предоставление более подробной информации о системах, результатах и проблемах приветствуется.
    Независимые эксперты также имеют возможность участвовать в обсуждении результатов и подготовить обзорный доклад (публикацию) по теме Форума.
    В целях популяризации Форума и стимулирования исследований в области информационного поиска в России предполагается совмещение этого мероприятия с российской конференцией близкой тематики.

Принципы оценки

Конкретные процедуры оценки безусловно различаются для различных задач автоматической обработки текста и формируются для конкретных дорожек, но можно выделить ряд общих основополагающих соображений:

  • Равноправие систем
    Процедура оценки должна по возможности гарантировать равноправие систем при оценке результатов. Например, следует избегать любых решений, связанных с форматом выдачи, набором оцениваемых позиций (тегов) и т.п., о которых известно, что они могут дать преимущество одной системе перед другой.

  • Анонимность источника результата
    При проведении оценки должна соблюдаться анонимность источника результата - то есть, те, кто оценивают результат, не должны знать, какая система(ы) выдала этот результат. Это необходимо для соблюдения анонимности итоговых оценок систем, а также для повышения объективности оценки.

  • Выборочная оценка
    Невозможность сплошной ручной оценки полученных результатов обуславливается ограниченностью ресурсов, доступных для ее проведения (числа экспертов, временными или финансовыми ограничениями, и т.п.). Выборочная оценка также позволяет повысить масштаб решаемых системами задач при сохранении затрат на оценку на приемлемом уровне. Условия выборки позиций для оценки заранее обсуждаются участниками.

  • Использование апробированных подходов
    Предпочтительным является использование апробированных методологий оценки, поскольку это повышает уверенность в получении надежных результатов.

  • Независимость процедуры оценки от выдачи системы
    Если оцениваются отдельные элементы выдачи системы, то результат оценки не должен зависеть от местоположения элемента в исходной тестовой коллекции.

  • Возможность привлечения участников для оценки результатов.
    Привлечение участников позволяет повысить объем доступных экспертных оценок без увеличения затрат на экспертов. Однако, поскольку в отличие от экспертов участники являются лицами заинтересованными, то повышается риск получения недостоверных результатов. Процедура оценки должна предусматривать методы обнаружения и устранения таких проблем.

Выбор дорожек

То, из каких дорожек будет состоять следующий семинар определяется исходя из интереса участников и возможностей по организации дорожек. Более формально процедура выбора состоит из следующих шагов:

  • Формируется множество "возможных реализуемых" дорожек.
    "Возможная" дорожка - это любая дорожка, подходящая под тематику Форума. Множество возможных дорожек открыто и каждый заинтересованный участник может предлагать свои варианты на общее обсуждение.
    К обсуждению принимаются дорожки для которых описана не вся требуемая информация, но для того, чтобы дорожка получила статус "реализуемой", необходимо иметь полное описание, а также обоснование доступности необходимых ресурсов (данных, экспертного времени, т.п.)

  • По каждой дорожке производится открытое голосование.
    Целью голосования является определить заинтересованность каждого из участников в каждой из возможных дорожек (можно заявляться на участие в нескольких дорожках).

  • Выбираются наиболее популярные дорожки.
    Отбор основан на максимизации выгоды (интереса участников) при условии ограниченности доступных ресурсов (как временных, так и финансовых на проведение оценки).

Описание дорожки включает в себя ответы на следующие вопросы:

  • Для оценки методов решения какой задачи дорожка предназначена?
  • Какой набор данных предполагается использовать? (с указанием характеристик - объёма, легальности, разнородности, ...)
  • Какие будут задания? Сколько? Как они будут формироваться?
  • В каком виде предполагается получать ответы от систем?
  • Как будет организована процедура оценки результатов? Сколько ручного труда необходимо и каковы предполагаемые затраты на проведение оценки?
  • Какие меры могут быть использованы для оценки?
  • Что мотивирует "осмысленность" получаемых цифр и основанных на них выводов о превосходстве тех или иных методов (методологические аспекты)? Например:
    • Стабильность результатов относительно количества заданий
    • Стабильность относительно процедуры оценки (порядка оценки или других факторов связанных с экспертами)
    • Защищённость от фальсификации результатов участниками