Форум "Оценка методов автоматического анализа текста:
морфологические парсеры русского языка"

 Приглашение к участию 
 Новости 
 О проекте 
 Манифест 
 Общие принципы 
 Заявка на участие 
 Участники 
 Дорожки 
 Экспертиза 
 Материалы Форума 
  Тестовые коллекции 
  Таблицы оценок 
 Сроки проведения 
 Публикации 
 FAQ 
 Форум и рассылка 
 
 Диалог 2010 

Участники

Приглашаем всех присоединиться к обсуждению правил на форуме. Текущие результаты обсуждения можно посмотреть здесь и здесь.

Получены заявки от 15 групп разработчиков, некоторые разработчики представляют несколько вариантов программ. Таблица заявок по дорожкам:

    ЛЕММАТИЗАЦИЯ   POS   МОРФОЛОГИЯ   РЕДКИЕ СЛОВА   КОЛЛЕКЦИИ: "ГРЯЗНЫЕ" ТЕКСТЫ   ДИЗАМБИГУАЦИЯ: ЛЕММЫ   ДИЗАМБИГУАЦИЯ: POS 
 АОТ   +   +   +   +   +   ─   ─ 
 ARME   +   +   ─   ─   ─   +   + 
 Cir_morph   +   +   +   +   +   +   + 
 Crosslator   +   +   +   ─   ─   +   + 
 FSTMorph   +   +   +   ─   ─   ─   ─ 
 FSTMorph + ETAP-3   ─   ─   ─   ─   ─   +   + 
 Libmorphrus   +   +   +   +   ─   +   + 
 Mocky   ─   ─   ─   ─   ─   +   + 
 Mystem   +   +   +   +   ─   ─   ─ 
 Mystem + FastDictionary   ─   ─   ─   +   ─   ─   ─ 
 Mystem + LightDisamb   ─   ─   ─   ─   ─   +   + 
 Polymorph   +   +   +   +   ─   ─   ─ 
 Pymorphy   +   +   +   +   +   +   + 
 RCO Morphology   +   +   +   +   ─   +   + 
 RDMA_IAI   +   +   +   +   ─   +   + 
 Semantarus Morpho   +   +   +   +   +   ─   ─ 
 Starling   +   +   +   +   ─   ─   ─ 
 TextAn   +   +   +   ─   ─   +   + 
  • АОТ
     
  • ARME
    ABBYY Retrieval and Morphology Engine
     
  • Cir_morph
    Модуль морфологического анализа АНО ЦИИ. Морфологический анализ русского и английского языков. Анализ русского языка - по урезанному, а потом дополненному словарю Зализняка. Сейчас 130 тыс.лемм. Для неизвестных лемм порождаются гипотезы. Главный критерий порождения - наличие правильного варианта среди гипотез. Также имеется некоторое количество эвристик - невозможные парадигмы, приставки, суффиксы, пользовательский словарь и т.п. Существует весьма удобная оболочка пополнения словаря - по аналогии с ранее описанными словами, позволяет при необходимости очень быстро увеличивать словарь.
     
  • Crosslator / Кросслятор
    "Кросслятор" является многоязыковой системой морфологического анализа и синтеза текстов на таких языках, как русский, английский, турецкий и испанский. Разрабатывается в ИПМ им. М.В. Келдыша с 2001 года в рамках работ над системой машинного перевода "Кросслятор".
     
  • FSTMorph / ФСТМорф
    Морфологический парсер FSTMorph, разработанный в лаборатории компьютерной лингвистики ИППИ РАН, состоит из двух частей: 1) модуля получения возможных разборов на основе конечного автомата и 2) модуля частичного разрешения грамматической омонимии по линейному контексту на основе правил. Кроме того, в дополнение к этому парсеру имеются простые алгоритмы для следующих задач: 1) разбиение текста на предложения и слова, 2) определение типа капитализации слов (регулярная капитализация типа Москва, Юля, окказиональная полная или частичная капитализация типа Человек с большой буквы или ЛЮБЛЮ, ЦЕЛУЮ, окказиональное отсутствие требуемой правилами капитализации типа москва, юля 3) обработка цифровых выражений. Объем русского морфологического словаря - более 120 тыс. лексических единиц.
     
  • FSTMorph + ETAP-3 / ФСТМорф + ЭТАП-3
    FSTMorph + Синтаксический анализатор (СА), который является частью лингвистического процессора ЭТАП-3 – полифункциональной системы обработки текста на ЕЯ. Для каждого предложения СА строит синтаксическую структуру в виде дерева зависимостей. В процессе построения структуры специальные правила (синтагмы) проводят все допустимые с их точки зрения бинарные синтаксические отношения между словами (точнее говоря - между морфологическими представлениями слов, т.е. лемма + набор словоизменительных грамматических характеристик). Затем из полученного набора отношений выделяется дерево зависимостей. В процессе генерации дерева зависимостей происходит полная дизамбигуация неоднозначных морфологических разборов. Объем используемого СА русского комбинаторного словаря (в котором представлена синтаксически чувствительная информация для каждого слова, включая синтаксические признаки и модели управления), - около 100 тыс. лексических единиц.
     
  • Libmorphrus
    Морфологический анализатор реализован в виде динамической библиотеки с экспортируемыми функциями в стиле "C". Есть также PHP-версия. Размер библиотеки со словарем - немногим более двух Mb. Высокая производительность анализатора - около ста тысяч слов в секунду в режиме полной лемматизации - обеспечивается оригинальной структурой словаря.
     
  • Mocky
    Анализатор построен на статистической модели триграмм (одна модель использует TnT, другая TreeTagger). Принципы работы и оценка качества описаны здесь.
     
  • Mystem
    Программа Mystem производит морфологический анализ текста на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы на основании частотности суффиксов.
     
  • Mystem + FastDictionary
    Mystem + новый модуль для работы со словами, отсутствующими в словаре.
     
  • Mystem + LightDisamb
    Mystem + "легкая" статистическая процедура снятия омонимии на основе биграммной статистики, с обучением по неразмеченному корпусу.
     
  • Polymorph / Полиморф
    Парсер содержит грамматический словарь на 110 тыс. слов, в основном соответствующий словарю А.А. Зализняка. Для отсутствующих в словаре слов парсер строит вполне разумные гипотезы, построенные на основе анализа большого массива текстов. Парсер может обрабатывать тексты в старой орфографии и правильно анализирует устаревшие формы типа "новаго, новыя, нову, пришед, скоряе" и т.д.
     
  • Pymorphy
    Некоммерческий open-source проект, который базируется на исследованиях aot.ru. Алгоритмы, используемые для морфологического анализа, - по сути, те же, что и на aot.ru, но их реализация упрощена. Это позволило добиться короткого, понятного и расширяемого кода (удобного для исследований и быстрой доработки) ценой потерь в производительности.
     
  • RCO Morphology
    Коммерческий морфоанализатор, работающий в составе лингвистических анализаторов RCO. Библиотека RCO Morphology SDK предназначена для морфологического анализа слов русского языка в информационно-поисковых системах и позволяет решать следующие задачи: получать нормальную форму слова, заданного в любой грамматической форме; получать все грамматические формы слова, заданного в любой грамматической форме. Библиотека включает в себя: точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ; высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения; вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова. Объем бинарного словаря - 3 МБайта. Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц). Продукт поставляется в виде динамической библиотеки (dll) для Windows.
     
  • RDMA_IAI / РДМА_ИПИИ
    Модуль декларативного морфологического анализа ИПИИ (Украина, Донецк) в явном виде хранит парадигмы слов (около 3 млн. словоформ, из которых 1.9 млн. уникальных строк). Каждая словоформа снабжена морфологической информацией. Модуль использует метод скоростного поиска строковых величин в словарях сверхбольших объёмов. Представляет собой совокупность средств морфологического анализа и синтеза. Оснащён подсистемой бессловарного морфологического анализа.
     
  • Semantarus Morpho / Семантарус Морфо
    Алгоритм морфоанализа О.С.Кулагиной, работающий на словнике словаря А.А.Зализняка с добавлением вероятностного определения грамм характеристик. Морфоанализатор является частью системы синтаксического анализа естестввенноязыковых текстов.
     
  • Starling
    Модуль морфологического анализа системы Starling. Парсер работает со словарем Зализняка в его "книжном" представлении, т.е. программа понимает описания вокабул непосредственно в том виде, который принят в словаре. Правила анализа скрыты в коде анализатора -- метаязыка для описания правил не предусмотрено. Для любой формы любого слова из словаря программа способна определить: a) исходную слоформу; b) словарную информацию, то есть морфологический индекс и имеющиеся комментарии из словаря; d) морфологическую характеристику слова. В случае многозначности введенной формы рассматриваются все варианты анализа; e) место ударения. Кроме того, программа способна синтезировать акцентуированные парадигмы для каждого из результатов анализа. Существует две версии программы. Одна написана на языке Clipper (xBase,xHarbour), другая на языке C.
     
  • TextAn / ТекстАн
    Морфологический анализатор использует базы данных на 145 тыс. слов, построенные по словарю В.А.Тузова. Результат морфологического разбора каждого слова подается на модуль снятия неоднозначностей, в качестве которого используется система элементов типа “Очередь”, позволяющая хранить результаты анализа восьми слов (каждое слово может иметь до шести вариантов разбора). Функционирование модуля подчиняется определенным правилам, которые оформлены в виде процедур. При поступлении результата разбора очередного слова в системе осуществляется сдвиг информации справа на¬лево. При этом результат разбора записывается в последний элемент, а информация из первого элемента выводится из системы в качестве окончательного результата в виде леммы и морфологической информации.