|
Дорожка "ГРЯЗНЫЕ ТЕКСТЫ"Категория: без дизамбигуации.ЗадачаДорожка посвящена оценке морфологического анализа в текстах, в которых в большом количестве присутствуют словоформы, записанные с ошибками. Это могут быть автоматически распознанные сканы, тексты чатов и т.п.В рамках данной дорожки ставится задача правильно определить лемму и часть речи, которые характеризуют исходную словоформу. Оценивается наличие правильной пары {лемма; часть речи} среди всех вариантов, представленных в разборе. Общая процедура проведения дорожки стандартна. КоллекцияВ качестве исходного набора данных используется коллекция Грязные тексты.Формулировка задания для участвующей системыСистема-участник получает исходные данные и задание - 100 слов. Ответом системы является файл(ы) в согласованном формате. Лемма записывается в теге "gram", часть речи - в теге "pos". Пара {лемма; часть речи} группируется внутри тегаОсобенности проведения дорожкиКак известно, набор частеречных тегов у разных морфологических парсеров различается. Участники совместно согласуют список категорий, участвующих в оценке, и правила приведения исходного набора категорий к этому списку.??? Участники берут на себя обязательство привести результаты работы своей системы к согласованному стандарту. В качестве задания используется коллекция заданий "Редкие слова" (см. п. Задача). Для простоты организации дорожки в коллекцию заданий включаются только те слова, которые не допускают омонимии в определении леммы и части речи. Коллекция заданий составляется экспертами на базе Основной коллекции и неизвестна участнику на этапе проведения дорожки. При проведении экспертизы из присланных ответов извлекается и оценивается первый разбор, встреченный в ответе. После подведения итогов экспертизы набор заданий будет открыт для доступа всем участникам. Методология оценкиОбщая методология оценки стандартна. Оценивается наличие правильной пары пары {лемма; часть речи} среди всех вариантов, представленных в разборе.Форматы данных |