Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Дорожка "РЕДКИЕ СЛОВА" (несловарные слова)

Категория: без дизамбигуации.

Задача

Дорожка посвящена словам, для которых системы со встроенным грамматическим словарем не могут найти соответствия в словаре и вынуждены строить гипотезы относительно их леммы, части речи и других грамматических характеристик. Для систем без встроенного словаря трудности представляют слова с редким типом словоизменения. Задание дорожки включает 100 словоформ, попадание которых в грамматический словарь систем маловероятно: они должны отличаться малой частотой в Основной коллекции и/или редким типом словоизменения.
В рамках данной дорожки ставится задача правильно определить лемму и часть речи, которые характеризуют исходную словоформу. Оценивается наличие правильной пары {лемма; часть речи} среди всех вариантов, представленных в разборе.
Общая процедура проведения дорожки стандартна.

Коллекция

В качестве исходного набора данных используется Основная коллекция. При оценке дорожки используется коллекция заданий Редкие слова.

Формулировка задания для участвующей системы

Система-участник получает исходные данные. Ответом системы является файл(ы) в согласованном формате. Лемма записывается в теге "gram", часть речи - в теге "pos". Пара {лемма; часть речи} группируется внутри тега "ana". Если система предлагает несколько вариантов пар {лемма; часть речи}, каждый вариант группируется с помощью отдельного тега "ana".

Особенности проведения дорожки

Как известно, набор частеречных тегов у разных морфологических парсеров различается. Участники совместно согласуют список категорий, участвующих в оценке, и правила приведения исходного набора категорий к этому списку.
??? Участники берут на себя обязательство привести результаты работы своей системы к согласованному стандарту. В качестве задания используется коллекция заданий "Редкие слова" (см. п. Задача). Для простоты организации дорожки в коллекцию заданий включаются только те слова, которые не допускают омонимии в определении леммы и части речи.
Коллекция заданий составляется экспертами на базе Основной коллекции и неизвестна участнику на этапе проведения дорожки. При проведении экспертизы из присланных ответов извлекается и оценивается первый разбор, встреченный в ответе. После подведения итогов экспертизы набор заданий будет открыт для доступа всем участникам.

Методология оценки

Общая методология оценки стандартна. Оценивается наличие правильной пары пары {лемма; часть речи} среди всех вариантов, представленных в разборе.

Форматы данных