ru-eval: оценка методов автоматического анализа текстов

Предыдущий форум по лексико-грамматической разметке русских текстов проводился в

Оценка методов автоматического анализа текста: морфологический анализ русского языка

Оценка результатов проводится по нескольким независимым дисциплинам (дорожкам). Каждая дорожка посвящена одной конкретной задаче анализа текста со строго определенными правилами оценки систем-участников. От участников не требуется участие во всех дорожках сразу, поэтому у них есть возможность сосредоточиться на решении только одной из предлагаемых задач.

Задачи и правила проведения дорожек определяются совместно с участниками. Следить за обсуждением дорожек и правил их проведения и участвовать в обсуждении вы можете на форуме и подписавшись на список рассылки. Проект общего регламента для проведения дорожек направлен участникам и экспертам для обсуждения и правки. Предшествующую дискуссию можно увидеть здесь и здесь.

Cостав дорожек 2010 года:

  • ЛЕММАТИЗАЦИЯ          
    определение правильной леммы 

  • POS          
    правильное определение части речи 

  • МОРФОЛОГИЯ          
    правильное извлечение прочей грамматической информации (падеж, род и т.д.) 

  • РЕДКИЕ СЛОВА          
    правильная лемматизация и частеречная характеристика так называемых "несловарных слов" 

  • КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ          [CANCELLED]
    качество разметки текстов особого вида, например, автоматически распознанных сканов и т.п. 

  • ДИЗАМБИГУАЦИЯ: ЛЕММЫ         
    выдача единственно правильной леммы 

  • ДИЗАМБИГУАЦИЯ: POS         
    выдача единственно правильной части речи

Тестовые коллекции

Коллекции исходных данных составлены из фрагментов коллекций неразмеченных текстов, присланных следующими участниками и экспертами:

  • ARME (Компания ABBYY)
  • Crosslator (Институт прикладной математики им. М.В.Келдыша)
  • FSTMorph (Институт проблем передачи информации РАН)
  • Pymorphy (М. Коробов)
  • TextAn (Е. Каневский, К. Боярский)
  • М. Ионов
  • С. Коваль
  • М. Кудринский
  • О. Ляшевская
  • Национальный корпус русского языка (ИРЯ РАН)
  • Е. Сидорова

Благодарим всех, принявших участие в составлении тестовых коллекций.

Баланс жанров в Основной коллекции:

  18% Статьи в СМИ/Нон-фикшн
  15% Новости
  15% Интервью
  15% Технические тексты
  15% Юридические тексты
  18% Художественная литература
   4% Блоги и форумы

Коллекция заданий составлена экспертами.

Задачи

Участники получают на вход неразмеченный текст, токенизируют его по оговоренным правилам и приписывают лексико-грамматический разбор в соответствии с условием каждой дорожки.

Участники шифруют авторство своих данных с помощью "внутреннего" пароля, присланного организаторами. При подведении результатов ответы систем будут представлены с помощью отдельного "внешнего" пароля для каждой дорожки (этим обеспечивается соблюдение полной анонимности).

Входные данные

Участники получают один файл с Основной коллекцией и один файл с коллекцией Грязные тексты.

Файлы представляют собой plain text и имеют кодировку UTF-8, без подписи BOM, концы строк имеют вид \r\n.

Выходные данные

Результаты (ответы систем) участники размещают на FTP-сервере, адрес которого указан в письме организаторов. Логин и пароль высылается участникам вместе с заданиями.

Ответы систем высылаются также в виде одного файла для каждой категории дорожек (см. п. II /1, 2,3 выше), а именно:
один файл с ответами для дорожек ЛЕММАТИЗАЦИЯ, POS, МОРФОЛОГИЯ, РЕДКИЕ СЛОВА,
под названием output1_<пароль>.txt, например output1_green
один файл в ответами для дорожек ДИЗАМБИГУАЦИЯ:ЛЕММЫ, ДИЗАМБИГУАЦИЯ:POS
под названием output2_<пароль>.txt, например output2_green
один файл с ответами для дорожки КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ.
под названием output3_<пароль>.txt, например output3_green

Файлы имеют кодировку UTF-8 (без подписи BOM, концы строк имеют вид \r\n) и также представляет собой plain text. Вместе с каждым файлом Ответа системы участник размещает на сервере второй файл под названием вида output1_green_tracks.txt, в котором указывает список дорожек, в которых участвует файл, из следующего списка:
track_2010_lemma
track_2010_pos
track_2010_gram
track_2010_rare
track_2010_scan
track_2010_lemma_disamb
track_2010_pos_disamb
Названия дорожек разделяются концом строки.
В конце списка еще раз пишется внутренний пароль.

Формат ответов

Ответы для дорожек даются сплошным массивом, файл не должен содержать никаких других элементов, кроме текста и разметки. Ответы предоставляются в следующем формате:
Каждая словоформа дается с новой строки, после нее ставится знак конца строки.
Каждый разбор дается с новой строки.
Знаки пунктуации и другие элементы, не подлежащие разбору, даются с новой строки.
Морфологическая информация в разборе дается в следующей последовательности: лемма, часть речи, значения грамматических категорий (граммемы). Перед леммой, частью речи и первой граммемой ставится знак табуляции. Далее все граммемы разделяются запятой. После последней граммемы идет конец строки. Например:
пила
_ _пить_ _V_ _f,past,sg
_ _пила_ _S_ _f,sg,nom
,
ела
_ _есть_ _V_ _f,past,sg
Несловарные элементы (знаки препинания, слова, записанные латинскими буквами, другая псевдографика, html-теги) в оценке не участвуют - эти строки имеют формат
несловарное_слово-конец_строки см. разметку запятой в примере выше.

Соглашение об обозначении частей речи и признаков грамматических категорий

Части речи

Для разметки используется упрощенная система частей речи:
S — существительное (яблоня, лошадь, корпус, вечность)
A — прилагательное (коричневый, таинственный, морской)
V — глагол (пользоваться, обрабатывать)
PR — предлог (под, напротив)
CONJ — союз (и, чтобы)
ADV — прочие неизменяемые слова (частицы, междометия, вводные слова)
Имена собственные размечаются как имена существительные (S)

Не участвуют в оценке и могут быть размечены любым образом:
Местоимения (включая наречные и предикативные)
Числительные, в том числе записанные цифрами
Составные предлоги и союзы (потому что, в течение)
Инициалы

Морфология (грамматические_признаки)

В категориях ADV,PR,CONJ поле остается пустым.
Морфология указывается только для S,A,V
Здесь также используется сокращенный набор признаков:
род - m, f, n
падеж - nom, gen, dat, acc, ins, loc
число - sg, pl
время/наклонение/причастие/деепричастие - pres, past, imper, inf, partcp, ger
залог - act, pass (указывается только в формах причастий)
лицо - 1p, 2p, 3p

Не участвуют в оценке следующие грамматические категории:
переходность глагола
вид глагола
одушевленность имен
краткая/полная/сравнительная/превосходная форма прилагательного и наречия
возвратность глагола
залог: указывается только в формах причастий

Отдельные особенности (признаки, не участвующие в оценке, могут быть размечены любым образом):
формы типа "пишу" и формы типа "напишу" объединяются в форму непрош. времени (pres),
формы типа "пойдемте" - в оценке не участвуют
формы имен из серии "пойти в солдаты", "попить чаю" - в оценке не участвуют
"в году" (второй предложный, местный) - loc
счетная форма (два шар/а) - gen
звательный падеж (Маш! отче и др.) - в оценке не участвует
сравнительные степени на ПО- (попроще) - в оценке не участвуют
род слов общего рода (врач) - в оценке не участвует
Буквы Е и Ё в лемматизации считаются равноправными.
Капитализация (разница между прописными и строчными буквами) не учитывается.

Общая процедура проведения экспертизы

Экспертиза строится на выборочной проверке ответов, присланных участниками. Основанием проведения экспертизы является "Золотой стандарт". "Золотым стандартом" называются случайно выбранные предложения из Основной коллекции (объемом около 2000 словоупотреблений). Кроме того, в "Золотой стандарт" входят предложения с редкими словами, заранее подобранные экспертами и включенные в Основную коллекцию. На дорожках ЛЕММАТИЗАЦИЯ, POS, МОРФОЛОГИЯ, ДИЗАМБИГУАЦИЯ:ЛЕММЫ, ДИЗАМБИГУАЦИЯ:POS проверке подвергаются целые предложения. На дорожках РЕДКИЕ СЛОВА и КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ проверке подвергаются отдельные слова в контексте предложений.

На дорожках без дизамбигуации правильным ответом системы считается ответ, в котором хотя бы один из разборов совпадает с разбором Золотого стандарта или признан правильным экспертом в процессе оценки. Не требуется наличие всех допустимых для словоформы разборов. Наличие лишних разборов не штрафуется. На дорожках с дизамбигуацией правильным ответом системы считается единственный или идущий первым ответ, если он совпадает с разбором Золотого стандарта или признан правильным экспертом в процессе оценки.

При оценке на каждой из дорожек оцениваются только данные полей, релевантных для дорожки. Отсутствие других полей (например, значений грамматических категорий) на результаты не влияет.

Экспертиза проводится в четыре этапа.

1 этап - ручная разметка Золотого стандарта силами экспертов. Ручная разметка проводится параллельно с проведением дорожек. Золотой стандарт делится на фрагменты, каждый фрагмент размечается независимо двумя экспертами. Случаи, в которых аннотаторы расходятся, а также затрудняются с ответом, обсуждаются коллективно. Если аннотаторы не могут прийти к удовлетворительному однозначному решению относительно каких-либо случаев, то они исключаются из Золотого стандарта.

2 этап - автоматическое составление списка расхождений между ответом системы и Золотым стандартом.

3 этап - оценка экспертами расхождений по шкале:
права система / прав стандарт / грамматически спорный вопрос / не знаю.
В категорию "права система", в частности, попадают случаи, когда расхождения между ответом системы и Стандартом носят технический характер (различия в кодировках, формате и т.п.). К категории "грамматически спорный вопрос" относятся, в частности, расхождения, связанные с членением текста на словоформы (составные предлоги, союзы и проч.), случаи, в которых мы не вправе требовать чудес интеллекта от морфологической системы (например, решение вопроса о возвратности, и, соответственно, о лемме глагола в контексте "корабли показывались на горизонте") и др.

Каждый ответ системы на каждой дорожке оценивается одним экспертом. Для обеспечения согласованности оценок, выставляемых разными экспертами, команда экспертов составляет типологию расхождений между системами и стандартом (например, что считать "грамматически спорным вопросом") и вырабатывает общие решения.

4 этап - количественная оценка расхождений и составление рейтингов.

Оценкам расхождений присваиваются веса 1 (прав стандарт) и 0 (во всех остальных случаях). Случаи совпадения решений Системы и Стандарта также получают вес 0.

Метрики

Метрикой общей оценки при составлении рейтингов является аккуратность (accuracy): количество слов, разобранных правильно / общее количество слов, участвующих в оценке

В рейтинги также включается некоторая дескриптивная статистика об Ответе системы (среднее число разборов на дорожках без дизамбигуации; число случаев, исключенных из оценки).

Участники RU-EVAL 2010

Подробнее об участниках

  • АОТ

  • ARME
    ABBYY Retrieval and Morphology Engine

  • Cir_morph
    Модуль морфологического анализа АНО ЦИИ. Морфологический анализ русского и английского языков. Анализ русского языка - по урезанному, а потом дополненному словарю Зализняка. Словарь насчитывает 130 тыс.лемм. Для неизвестных лемм порождаются гипотезы. Главный критерий порождения - наличие правильного варианта среди гипотез.
    Также имеется некоторое количество эвристик - невозможные парадигмы, приставки, суффиксы, пользовательский словарь и т.п.
    Существует весьма удобная оболочка пополнения словаря - по аналогии с ранее описанными словами, позволяет при необходимости очень быстро увеличивать словарь.

  • Crosslator / Кросслятор
    "Кросслятор" является многоязыковой системой морфологического анализа и синтеза текстов на таких языках, как русский, английский, турецкий и испанский. Разрабатывается в ИПМ им. М.В. Келдыша с 2001 года в рамках работ над системой машинного перевода "Кросслятор".

  • FSTMorph / ФСТМорф
    Морфологический парсер FSTMorph, разработанный в лаборатории компьютерной лингвистики ИППИ РАН, состоит из двух частей: 1) модуля получения возможных разборов на основе конечного автомата и 2) модуля частичного разрешения грамматической омонимии по линейному контексту на основе правил.
    Кроме того, в дополнение к этому парсеру имеются простые алгоритмы для следующих задач:
    1) разбиение текста на предложения и слова,
    2) определение типа капитализации слов (регулярная капитализация типа Москва, Юля, окказиональная полная или частичная капитализация типа Человек с большой буквы или ЛЮБЛЮ, ЦЕЛУЮ, окказиональное отсутствие требуемой правилами капитализации типа москва, юля
    3) обработка цифровых выражений.
    Объем русского морфологического словаря - более 120 тыс. лексических единиц.

  • FSTMorph + ETAP-3 / ФСТМорф + ЭТАП-3
    FSTMorph + Синтаксический анализатор (СА), который является частью лингвистического процессора ЭТАП-3 – полифункциональной системы обработки текста на ЕЯ. Для каждого предложения СА строит синтаксическую структуру в виде дерева зависимостей. В процессе построения структуры специальные правила (синтагмы) проводят все допустимые с их точки зрения бинарные синтаксические отношения между словами (точнее говоря - между морфологическими представлениями слов, т.е. лемма + набор словоизменительных грамматических характеристик). Затем из полученного набора отношений выделяется дерево зависимостей. В процессе генерации дерева зависимостей происходит полная дизамбигуация неоднозначных морфологических разборов.
    Объем используемого СА русского комбинаторного словаря (в котором представлена синтаксически чувствительная информация для каждого слова, включая синтаксические признаки и модели управления), - около 100 тыс. лексических единиц.

  • Libmorphrus
    Морфологический анализатор реализован в виде динамической библиотеки с экспортируемыми функциями в стиле "C". Есть также PHP-версия. Размер библиотеки со словарем - немногим более двух Mb. Высокая производительность анализатора - около ста тысяч слов в секунду в режиме полной лемматизации - обеспечивается оригинальной структурой словаря.

  • Mocky
    Анализатор построен на статистической модели триграмм (одна модель использует TnT, другая TreeTagger). Принципы работы и оценка качества описаны здесь.

  • Mystem
    Программа Mystem производит морфологический анализ текста на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы на основании частотности суффиксов.

  • Mystem + FastDictionary
    Mystem + новый модуль для работы со словами, отсутствующими в словаре.

  • Mystem + LightDisamb
    Mystem + "легкая" статистическая процедура снятия омонимии на основе биграммной статистики, с обучением по неразмеченному корпусу.

  • Polymorph / Полиморф
    Парсер содержит грамматический словарь на 110 тыс. слов, в основном соответствующий словарю А.А. Зализняка. Для отсутствующих в словаре слов парсер строит вполне разумные гипотезы, построенные на основе анализа большого массива текстов. Парсер может обрабатывать тексты в старой орфографии и правильно анализирует устаревшие формы типа новаго, новыя, нову, пришед, скоряе и т.д.

  • Pymorphy
    Некоммерческий open-source проект, который базируется на исследованиях aot.ru. Алгоритмы, используемые для морфологического анализа, - по сути, те же, что и на aot.ru, но их реализация упрощена. Это позволило добиться короткого, понятного и расширяемого кода (удобного для исследований и быстрой доработки) ценой потерь в производительности.

  • RCO Morphology
    Коммерческий морфоанализатор, работающий в составе лингвистических анализаторов RCO. Библиотека RCO Morphology SDK предназначена для морфологического анализа слов русского языка в информационно-поисковых системах и позволяет решать следующие задачи:
    получать нормальную форму слова, заданного в любой грамматической форме;
    получать все грамматические формы слова, заданного в любой грамматической форме.
    Библиотека включает в себя:
    точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
    высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
    вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.
    Объем бинарного словаря - 3 МБайта.
    Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц).
    Продукт поставляется в виде динамической библиотеки (dll) для Windows.

  • RDMA_IAI / РДМА_ИПИИ
    Модуль декларативного морфологического анализа ИПИИ (Украина, Донецк) в явном виде хранит парадигмы слов (около 3 млн. словоформ, из которых 1.9 млн. уникальных строк). Каждая словоформа снабжена морфологической информацией. Модуль использует метод скоростного поиска строковых величин в словарях сверхбольших объёмов. Представляет собой совокупность средств морфологического анализа и синтеза. Оснащён подсистемой бессловарного морфологического анализа.

  • Semantarus Morpho / Семантарус Морфо
    Алгоритм морфоанализа О.С.Кулагиной, работающий на словнике словаря А.А.Зализняка с добавлением вероятностного определения грамм характеристик. Морфоанализатор является частью системы синтаксического анализа естестввенноязыковых текстов.

  • Starling
    Модуль морфологического анализа системы Starling. Парсер работает со словарем Зализняка в его "книжном" представлении, т.е. программа понимает описания вокабул непосредственно в том виде, который принят в словаре. Правила анализа скрыты в коде анализатора -- метаязыка для описания правил не предусмотрено. Для любой формы любого слова из словаря программа способна определить:
    a) исходную слоформу;
    b) словарную информацию, то есть морфологический индекс и имеющиеся комментарии из словаря;
    c) морфологическую характеристику слова. В случае многозначности введенной формы рассматриваются все варианты анализа;
    d) место ударения.
    Кроме того, программа способна синтезировать акцентуированные парадигмы для каждого из результатов анализа.
    Существует две версии программы. Одна написана на языке Clipper (xBase,xHarbour), другая на языке C.

  • TextAn / ТекстАн
    Морфологический анализатор использует базы данных на 145 тыс. слов, построенные по словарю В.А.Тузова. Результат морфологического разбора каждого слова подается на модуль снятия неоднозначностей, в качестве которого используется система элементов типа “Очередь”, позволяющая хранить результаты анализа восьми слов (каждое слово может иметь до шести вариантов разбора). Функционирование модуля подчиняется определенным правилам, которые оформлены в виде процедур. При поступлении результата разбора очередного слова в системе осуществляется сдвиг информации справа на¬лево. При этом результат разбора записывается в последний элемент, а информация из первого элемента выводится из системы в качестве окончательного результата в виде леммы и морфологической информации.

Таблица участия

Были получены заявки от 15 групп разработчиков, некоторые разработчики представляют несколько вариантов программ. Таблица заявок по дорожкам:

    ЛЕММАТИЗАЦИЯ    POS    МОРФОЛОГИЯ   РЕДКИЕ СЛОВА   КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ   ДИЗАМБИГУАЦИЯ: ЛЕММЫ   ДИЗАМБИГУАЦИЯ: POS 
 АОТ   +   +   +   +   +   ─   ─ 
 ARME   +   +   ─   ─   ─   +   + 
 Cir_morph   +   +   +   +   +   +   + 
 Crosslator   +   +   +   ─   ─   +   + 
 FSTMorph   +   +   +   ─   ─   ─   ─ 
 FSTMorph + ETAP-3   ─   ─   ─   ─   ─   +   + 
 Libmorphrus   +   +   +   +   ─   +   + 
 Mocky   ─   ─   ─   ─   ─   +   + 
 Mystem   +   +   +   +   ─   ─   ─ 
 Mystem + FastDictionary   ─   ─   ─   +   ─   ─   ─ 
 Mystem + LightDisamb   ─   ─   ─   ─   ─   +   + 
 Polymorph   +   +   +   +   ─   ─   ─ 
 Pymorphy   +   +   +   +   +   +   + 
 RCO Morphology   +   +   +   +   ─   +   + 
 RDMA_IAI   +   +   +   +   ─   +   + 
 Semantarus Morpho   +   +   +   +   +   ─   ─ 
 Starling   +   +   +   +   ─   ─   ─ 
 TextAn   +   +   +   ─   ─   +   + 

Результаты RU-EVAL 2010

В 2010 году было получено 13 ответов систем по дорожкам «Лемматизация» и «POS», 12 ответов по дорожке «Морфология», 8 ответов по дорожке «Редкие слова» и 7 ответов по обеим дорожкам с дизамбигуацией. Ответы одного участника по дорожкам «Лемматизация», «POS» и «Морфология» были дисквалифицированы за несоответствие формата данных и не участвовали в экспертизе.

Дорожки без дизамбигуации

Дорожка "Редкие слова"

Дорожки с дизамбигуацией